GPT-4o, Claude і Gemini провалили тест на увагу, який люди проходять десятиліттями
Дослідження команди на чолі із Сукету Пателем свідчить, що сучасні великі мовні моделі добре проходять короткі тести на увагу, але різко втрачають точність на довших дистанціях. Про це пише ScienceDaily.
Що сталося
Дослідники перевірили кілька провідних LLM класичним тестом Stroop. У ньому людині або моделі показують слова на кшталт «червоний» чи «синій», надруковані різними кольорами. Завдання просте лише на вигляд: треба назвати колір тексту, а не прочитати саме слово. Цей тест десятиліттями використовують у психології, щоб вимірювати увагу, самоконтроль і здатність не відволікатися від інструкції.
На коротких списках моделі показали сильний результат. GPT-4o мав 91% точності на списках із п’яти слів. Але далі почався різкий спад. На списках із 10 слів точність моделі впала до 57%, а на 40 — до 15%.
Claude 3.5 Sonnet тримався довше, але теж просів на довших послідовностях. На списках до 20 слів його результат залишався стабільним, однак на 40 словах точність знизилася до 24%. Схожий патерн дослідники побачили і в GPT-5, Claude Opus 4.1 та Gemini 2.5.
Чому це цікаво
Ще гірше моделі проходили змішані списки, де частина слів збігалася з кольором, а частина — ні. У таких умовах точність на конфліктних елементах у деяких випадках падала майже до нуля.
Виявилося, що під час довгих завдань ШІ просто забуває дану йому інструкцію (називати колір) і повертається до того, що вміє найкраще — просто читати текст. Штучному інтелекту не вдається ігнорувати фактори, які його відволікають, так, як це робить людський мозок.
Коли такий тест проходить людина, вона автоматично читає текст швидше, ніж називає колір. Втім, більшість людей утримує увагу навіть під час довших тестувань що і є різницею між людською увагою та тим, як працюють LLM.
Важливо, що чат-боти можуть не лише підсилювати продуктивність, а й поступово послаблювати людську цікавість — одну з базових навичок для навчання, творчості та сильних рішень.
Источник: vctr.media