Спустя несколько месяцев после появления стало ясно, что в своей нынешней форме ChatGPT не способен заменить врачей: помимо отсутствия любых представлений об этике, у него обнаружилась неистребимая склонность к фальсификации данных.
Недавняя новость о том, что его новейшая версия, GPT-4, смогла сдать выпускной экзамен на получение медицинской лицензии США, дав более 90% правильных ответов (предыдущая версия, GPT-3.5, кстати, достигла проходного балла в 60%), дала энтузиастам надежду на то, что ИИ может стать мощным диагностическим инструментом, куда более продвинутым, чем уже существующие медицинские калькуляторы (программы, куда можно вбить показатели пациента и получить диагноз).
Однако проверка способностей GPT-3.5 в медицине убедительно доказала, что до этого пока далеко. Хотя он мог дать базовые рекомендации по лечению уже известных заболеваний (которые также можно найти на первых станицах Интернет-поисковиков), диагностика неизменно ставила его в тупик. Например, судороги он сводит к эпилепсии, игнорируя любые другие причины, связанные с обменом веществ (гипокальциемия, гипомагниемия и так далее). В реальности такая ошибка была бы чревата для пациента смертью.
То же касается всех остальных задач, содержащих подробные данные, достаточные для постановки диагноза: максимум, чего удавалось добиться, это несколько неконкретных предположений, одно из которых имело отношение к реальному диагнозу (например, «опухоль», а не конкретный устанавливаемый по объективным данным вид рака).
К тому же выводу пришел врач «Скорой помощи», опубликовавший заметку в Fastcompany: он вводил анонимные данные своих пациентов и запрашивал возможные диагнозы. Только в 50% случаев среди перечисленных был правильный диагноз, в другой половине все предположения были неверными. Например, ChatGPT верно диагностировал опухоль мозга одному пациенту, но пропустил рак у двух других. Девушке с внематочной беременностью он диагностировал аппендицит; еще у одного пациента, которому нейросеть поставила диагноз «камни в почках», на самом деле был разрыв аорты. Очевидно, что с такой «точностью» в клинике рассчитывать не на что.
Хотя GPT-4, как свидетельствуют результаты теста, должен справляться лучше более ранних версий ИИ, на деле для него неизбежны те же проблемы. Выпускной тест на медлицензию основан на стандартных вопросах, которые на самом деле уже есть в базе, и более поздние версии ChatGPT просто ищут ответы лучше (отсюда же меньшая склонность к «галлюцинациям», т.е. предоставлению ложной информации). Но большинство реальных случаев не сводятся к простому алгоритму, что ставит ИИ в тупик.
А чтобы ChatGPT диагностировал перелом стенки орбиты глаза (частая история при травмах, знакомая любому травматологу или врачу «Скорой»), пришлось ввести чрезвычайно подробное описание случая на 600 слов. Программа также далека от образа помощника, лишенного свойственной человеку субъективности: результат напрямую зависит от исходных данных, и врач, склоняющийся к неверному диагнозу, при перечислении фактов подсознательно будет делать упор на те, которые подтверждают его догадку, — что повлияет на выводы ИИ.
Другая проблема состоит в том, что нейросетью также могут пользоваться для диагностики пациенты, которых ChatGPT может увести в неверном направлении и которые потеряют из-за этого время.
Это не означает, что ИИ бесполезен для медицинских целей: при формировании большой базы данных, включающей в себя миллионы случаев, он сможет не только ставить диагнозы более корректно, но и помочь с выявлением связей между событиями и симптомами, которые ранее ускользали от внимания ученых. Но для того, чтобы воплотить это в жизнь, мало нескольких месяцев: скорее всего, это будет делом ближайших десятилетий.
Источник: «Вирусная нагрузка» (t.me/viralload)