ИИ-"Доктора" Обманывают Медицинские Тесты

ИИ-"доктора" обманывают на медицинских экзаменах

dpa/picture alliance via Getty Images

Самые передовые системы искусственного интеллекта в мире по сути обманывают при прохождении медицинских тестов, достигая впечатляющих результатов не благодаря подлинным медицинским знаниям, а используя лазейки в том, как эти тесты разработаны. Это открытие имеет огромные последствия для индустрии медицинского ИИ стоимостью сто миллиардов и для каждого пациента, который может столкнуться с здравоохранением на основе ИИ.

Проблема мошенничества медицинского ИИ

Представьте медицинские эталоны ИИ как стандартизированные тесты, которые измеряют, насколько хорошо системы искусственного интеллекта понимают медицину. Подобно тому, как студенты сдают SAT, чтобы доказать свою готовность к колледжу, системы ИИ проходят эти медицинские тесты, чтобы продемонстрировать свою готовность помогать врачам диагностировать заболевания и рекомендовать лечение.

Но недавнее революционное исследование, опубликованное Microsoft Research, показывает, что эти системы ИИ на самом деле не изучают медицину. Они просто очень хорошо сдают тесты. Это как обнаружить, что студент получил идеальные баллы SAT не благодаря пониманию математики и чтения, а запоминая, какой вариант ответа чаще всего бывает правильным.

Исследователи подвергли шесть ведущих моделей ИИ строгим стресс-тестам и обнаружили, что эти системы достигают высоких медицинских показателей с помощью сложных приемов сдачи тестов, а не реального медицинского понимания.

Как системы ИИ обманывают систему

Исследовательская группа обнаружила несколько способов, которыми системы ИИ имитируют медицинскую компетентность, используя методы, которые почти наверняка привели бы к отчислению студента-человека:

Когда исследователи просто переставляли порядок ответов с множественным выбором, перемещая, например, вариант A на позицию C, производительность ИИ значительно снижалась. Это означает, что системы учились тому, что "ответ обычно находится в позиции B", а не тому, что "пневмония вызывает эти конкретные симптомы".
На вопросы, требующие анализа медицинских изображений, таких как рентгеновские снимки или МРТ, системы ИИ все равно давали правильные ответы, даже когда изображения были полностью удалены. GPT-5, например, сохранял 37,7% точности на вопросах, требующих визуального анализа, даже без каких-либо изображений, что значительно выше уровня случайного выбора в 20%.
Системы ИИ выяснили, как использовать подсказки в неправильных вариантах ответов для угадывания правильного, вместо применения реальных медицинских знаний. Исследователи обнаружили, что эти модели сильно полагались на формулировку неправильных ответов, известных как "дистракторы". Когда эти дистракторы заменяли немедицинскими терминами, точность ИИ резко падала. Это показало, что он опирался на приемы сдачи тестов вместо подлинного понимания.

Ваше здравоохранение на ИИ

Это исследование появилось в то время, когда ИИ быстро расширяется в здравоохранении. Восемьдесят процентов больниц теперь используют ИИ для улучшения ухода за пациентами и операционной эффективности, а врачи все больше полагаются на ИИ во всем: от чтения рентгеновских снимков до предложения методов лечения. Тем не менее, это исследование предполагает, что текущие методы тестирования не могут различить подлинную медицинскую компетентность и сложные алгоритмы сдачи тестов.

Исследование Microsoft Research показало, что модели, подобные GPT-5, достигли 80,89% точности в задачах с медицинскими изображениями, но этот показатель упал до 67,56%, когда изображения были удалены. Это снижение на 13,33 процентных пункта выявляет скрытую зависимость от невизуальных подсказок. Еще более тревожно то, что когда исследователи заменяли медицинские изображения на те, которые поддерживают другие диагнозы, точность модели падала более чем на тридцать процентных пунктов, несмотря на отсутствие изменений в текстовых вопросах.

Рассмотрим такой сценарий: система ИИ достигает 95% результата на тестах по медицинской диагностике и внедряется в отделениях неотложной помощи для быстрой оценки пациентов врачами. Но если эта система достигла высокого результата с помощью приемов сдачи тестов, а не медицинского понимания, она может пропустить критические симптомы или рекомендовать неподходящее лечение при столкновении с реальными пациентами, чьи состояния не соответствуют шаблонам, которые она изучила из тестовых вопросов.

Ожидается, что рынок медицинского ИИ превысит сто миллиардов к 2030 году, при этом системы здравоохранения по всему миру активно инвестируют в инструменты диагностики на основе ИИ. Организации здравоохранения, приобретающие системы ИИ на основе впечатляющих эталонных показателей, могут неосознанно создавать значительные риски для безопасности пациентов. Исследователи Microsoft предупреждают, что "медицинские эталонные показатели не отражают напрямую готовность к реальному миру".

Последствия выходят за рамки тестовых показателей. Исследование Microsoft показало, что когда модели ИИ просили объяснить их медицинские рассуждения, они часто генерировали "убедительные, но ошибочные рассуждения" или предоставляли "правильные ответы, подкрепленные сфабрикованными рассуждениями". Один пример показал, как модель правильно диагностировала дерматомиозит, описывая визуальные особенности, которых не было на изображении, поскольку изображение вообще не предоставлялось.

Даже при ускорении внедрения ИИ, быстрое внедрение ИИ в медицине вызывает беспокойство у исследователей, а эксперты предупреждают, что больницы и университеты должны активизироваться для заполнения пробелов в регулировании.

Проблема распознавания паттернов ИИ

В отличие от студентов-медиков, которые учатся, понимая, как болезни влияют на человеческий организм, современные системы ИИ учатся, находя закономерности в данных. Это создает то, что исследователи Microsoft называют "обучением по сокращенному пути", находя самый легкий путь к правильному ответу без развития подлинного понимания.

Исследование показало, что модели ИИ могут диагностировать пневмонию не путем интерпретации радиологических особенностей, а узнавая, что "продуктивный кашель" плюс "лихорадка" статистически сосуществуют с пневмонией в обучающих данных. Это сопоставление шаблонов, а не медицинское понимание.

Недавнее исследование из Nature подчеркивает аналогичные опасения, показывая, что доверие к системам здравоохранения с поддержкой ИИ остается проблематичным, когда эти системы не демонстрируют подлинного понимания медицинских контекстов.

Движение вперед с медицинским ИИ

Исследователи Microsoft выступают за переосмысление того, как мы тестируем медицинские системы ИИ. Вместо того чтобы полагаться на эталонные показатели, нам нужны методы оценки, которые могут обнаружить, когда системы ИИ играют с тестами, а не изучают медицину.

Индустрия медицинского ИИ переживает критический момент. Результаты исследования Microsoft Research показывают, что впечатляющие эталонные показатели создали иллюзию готовности, которая может иметь серьезные последствия для безопасности пациентов. По мере того как ИИ продолжает расширяться в здравоохранении, наши методы проверки этих систем должны развиваться, чтобы соответствовать их сложности и их потенциалу для сложных сбоев.

Source: https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/