ШІ пропонував точніші діагнози у відділеннях невідкладної допомоги, ніж двоє дипломованих лікарів

Дмитро Сизов 5 мая 2026 09:14

Нове дослідження вивчає, як великі мовні моделі працюють у різних медичних контекстах, включаючи реальні випадки у відділеннях невідкладної допомоги, де принаймні одна модель виявилася точнішою, ніж у лікарів-людей.

Дослідження було опубліковано цього тижня в журналі Science і є результатом роботи дослідницької групи під керівництвом лікарів та фахівців з інформатики з Гарвардської медичної школи та медичного центру Beth Israel Deaconess. Дослідники заявили, що провели різноманітні експерименти, щоб порівняти моделі OpenAI з роботами лікарів-людей.

В одному експерименті дослідники зосередилися на 76 пацієнтах, які звернулися до відділення невідкладної допомоги лікарні Бет-Ізраель, порівнюючи діагнози, поставлені двома лікарями-терапевтами, з діагнозами, згенерованими моделями OpenAI o1 та 4o. Ці діагнози були оцінені двома іншими лікарями, які не знали, які з них були поставлені людьми, а які - штучним інтелектом.

«У кожній діагностичній точці контакту o1 показав або номінально кращі результати, ніж два лікуючі лікарі, або ж був на одному рівні з ними, а 4o», – йдеться в дослідженні, додаючи, що відмінності «були особливо виражені в першій діагностичній точці контакту (початкове сортування у відділенні невідкладної допомоги), де найменше інформації про пацієнта та найбільша потреба в терміновому прийнятті правильного рішення».

У прес-релізі Гарвардської медичної школи щодо дослідження дослідники наголосили, що вони «зовсім не обробляли дані попередньо» — моделі штучного інтелекту були представлені з тією ж інформацією, яка була доступна в електронних медичних записах на момент постановки кожного діагнозу.

Маючи цю інформацію, модель o1 змогла запропонувати «точний або дуже близький діагноз» у 67% випадків сортування, порівняно з одним лікарем, який мав точний або близький діагноз у 55% випадків, та іншим, який влучив у ціль у 50% випадків.

«Ми протестували модель штучного інтелекту практично за всіма показниками, і вона перевершила як попередні моделі, так і базові показники наших лікарів», – сказав у прес-релізі Арджун Манрай, який очолює лабораторію штучного інтелекту в Гарвардській медичній школі та є одним із провідних авторів дослідження.

Зазначимо, що в дослідженні не стверджувалося, що штучний інтелект готовий приймати реальні рішення щодо життя та смерті у відділенні невідкладної допомоги. Натомість, у ньому зазначалося, що результати дослідження демонструють «нагальну потребу в перспективних випробуваннях для оцінки цих технологій у реальних умовах догляду за пацієнтами».

Дослідники також зазначили, що вони вивчали лише те, як моделі працювали, коли їм надавалася текстова інформація, і що «існуючі дослідження показують, що сучасні базові моделі більш обмежені в міркуваннях порівняно з нетекстовими вхідними даними».

Адам Родман, лікар з лікарні Бет-Ізраель, який також є одним із провідних авторів дослідження, попередив Guardian , що «наразі немає офіційної системи відповідальності» за діагнози, пов’язані зі штучним інтелектом, і що пацієнти все ще «хочуть, щоб люди керували ними у прийнятті рішень щодо життя чи смерті [і] керували ними у прийнятті складних рішень щодо лікування».

У дописі про дослідження Крістен Пантагані, лікарка швидкої допомоги, сказала, що це «цікаве дослідження штучного інтелекту, яке призвело до деяких дуже перебільшених заголовків», особливо враховуючи те, що в ньому порівнювали діагнози ШІ з діагнозами лікарів-терапевтів, а не лікарів відділень невідкладної допомоги.

«Якщо ми збираємося порівнювати інструменти штучного інтелекту з клінічними здібностями лікарів, нам слід почати з порівняння з лікарями, які фактично практикують цю спеціальність», – сказав Пантагані. «Я не здивуюся, якщо ступінь магістра права (LLM) зможе перемогти дерматолога на іспиті з нейрохірургії, [але] це не особливо корисна інформація».

Вона також стверджувала: «Як лікар відділення невідкладної допомоги, який вперше приймає пацієнта, моя головна мета — не вгадати ваш остаточний діагноз. Моя головна мета — визначити, чи є у вас захворювання, яке може вас смертельно вбити».