Перейти к содержимому
IT и стартапы

Исследование Гарварда: ИИ от OpenAI точнее врачей ставит диагнозы в скорой

Модель o1 правильно определила диагноз в 67% случаев при первичном триаже — против 50–55% у врачей-терапевтов, участвовавших в эксперименте.

Казакевич Алексей
5 мин
Исследование Гарварда: ИИ от OpenAI точнее врачей ставит диагнозы в скорой

Исследование, опубликованное в журнале Science, показало: языковая модель OpenAI o1 превзошла двух практикующих врачей по точности диагностики на реальных случаях из приёмного отделения. Работу провела совместная команда врачей и специалистов по компьютерным наукам из Гарвардской медицинской школы и медицинского центра Beth Israel Deaconess.

Результат вызвал волну публикаций в мировых СМИ — и одновременно острую критику со стороны практикующих врачей скорой помощи.

Как проводился эксперимент

Исследователи взяли 76 реальных случаев из приёмного отделения Beth Israel и предложили двум врачам-терапевтам поставить диагнозы. Те же данные — без какой-либо предварительной обработки — получили модели o1 и 4o от OpenAI. Оценивали результаты два других врача, которые не знали, где ответ человека, а где — машины.

Модель o1 дала «точный или близкий к точному» диагноз в 67% случаев на этапе первичного триажа. Один из врачей-участников справился в 55% случаев, второй — в 50%. Авторы особо подчеркнули, что преимущество ИИ было наиболее заметным именно на первом этапе — когда информации о пациенте меньше всего, а цена ошибки максимальна.

««Мы тестировали модель по всем возможным показателям, и она превзошла как предыдущие версии, так и наших врачей-участников», — заявил Арджун Манрай, руководитель ИИ-лаборатории Гарвардской медицинской школы и один из ведущих авторов исследования.»

Важная деталь: модели работали исключительно с текстовыми данными из электронных медицинских карт — именно теми, что были доступны врачам в момент постановки диагноза.

Почему результаты не стоит переоценивать

Авторы исследования сами предостерегают от поспешных выводов. В публикации прямо говорится: полученные данные указывают на «острую необходимость проспективных испытаний» в реальных условиях — но никак не означают, что ИИ готов самостоятельно принимать жизненно важные решения.

Адам Родман, врач Beth Israel и соавтор работы, в комментарии изданию The Guardian напомнил: сегодня не существует «формальной системы ответственности» за диагнозы, поставленные ИИ. Пациенты по-прежнему хотят, чтобы именно человек сопровождал их в критических ситуациях.

Один из наиболее точных критических разборов дала Кристен Пантагани, врач скорой помощи: по её словам, заголовки в СМИ оказались «сильно раздутыми». Ключевое замечание — в эксперименте ИИ сравнивали не с врачами скорой, а с терапевтами-интернистами, которые не специализируются на экстренной медицине.

««Если мы хотим сравнивать ИИ с врачами, нужно сравнивать его с теми, кто реально работает в этой специальности», — написала Пантагани. — «Меня не удивит, если языковая модель обыграет дерматолога на экзамене по нейрохирургии. Но практической пользы от этого знания немного».»

Она также указала на принципиальное различие в задачах: врач скорой при первом осмотре думает не о том, чтобы угадать окончательный диагноз, а о том, есть ли у пациента состояние, которое может убить его прямо сейчас.

Отдельное ограничение исследования — модели работали только с текстом. Сами авторы признают, что «существующие данные указывают на более слабые возможности фундаментальных моделей при работе с нетекстовыми данными». Снимки, результаты физикального осмотра, интонация пациента — всё это осталось за рамками эксперимента.

Что это означает для медицины и технологий

Несмотря на оговорки, исследование добавляет весомый аргумент в пользу клинического применения больших языковых моделей — особенно в роли вспомогательного инструмента при триаже. Именно здесь нагрузка на врачей максимальна, а скорость принятия решений критична.

Для белорусского контекста тема актуальна как минимум в двух измерениях. Во-первых, компании — резиденты ПВТ активно разрабатывают решения для цифрового здравоохранения, и подобные исследования формируют рыночный запрос на медицинские ИИ-продукты. Во-вторых, дискуссия об ответственности за решения ИИ в медицине — это вопрос регулирования, который рано или поздно встанет перед любым рынком, включая белорусский.

Пока исследователи призывают к масштабным проспективным испытаниям в реальных клинических условиях. До момента, когда ИИ получит официальный статус диагностического инструмента, пройдёт немало времени — но направление движения становится всё очевиднее.

— По материалам TechCrunch: оригинальная статья. Перевод и адаптация — редакция Digital Business by.

ПоделитьсяVK

Свежие новости

Все новости