Дослідження показало різке падіння точності мовних моделей ШІ
Міжнародна команда дослідників перевірила великі мовні моделі за допомогою тесту Струпа — класичного психологічного експерименту, який оцінює концентрацію та здатність ігнорувати зайві стимули. Результати показали несподівану тенденцію: зі збільшенням обсягу завдання точність ШІ різко падає.
Суть тесту Струпа полягає в тому, що потрібно називати колір тексту, ігноруючи саме слово. Наприклад, слово «червоний», написане синім кольором, вимагає відповіді «синій». Люди зазвичай виконують такі завдання стабільно навіть у довгих серіях завдяки здатності контролювати увагу та пригнічувати автоматичні реакції.
У дослідженні перевірили кілька сучасних моделей, зокрема GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 та Gemini 2.5. На коротких наборах (близько 5 слів) усі системи показали високу точність. Але зі збільшенням довжини завдання результати почали стрімко погіршуватися.
Наприклад, GPT-4o мав близько 91% правильних відповідей при 5 словах, але лише 57% при 10 і приблизно 15% при 40. Claude 3.5 утримувався краще на коротших серіях, однак також різко втрачав точність при збільшенні навантаження, падаючи до рівня близько 24%.
На думку дослідників, проблема полягає в тому, що мовні моделі «збиваються» з інструкції та починають покладатися на найімовірніші мовні патерни — тобто просто читають слова замість аналізу кольору. Це суттєво відрізняє їх від людського мозку, який здатний утримувати концентрацію та стабільно пригнічувати автоматичні реакції навіть у складних умовах.
Думка редакції
Результати дослідження з тестом Струпа демонструють не стільки «слабкість» сучасних моделей, скільки межі їхнього принципу роботи. У задачах із коротким контекстом системи на кшталт GPT-4o, Claude 3.5 Sonnet чи Gemini 2.5 справді показують високу точність, але зі зростанням навантаження починають втрачати стабільність.
Це підкреслює ключову різницю між людиною і ШІ: замість справжнього «утримання уваги» моделі покладаються на статистичні патерни. Тому їхня продуктивність може різко падати при ускладненні інструкцій. Водночас це не провал, а важливий сигнал для розвитку архітектур, які краще працюватимуть із довгими послідовностями та багатозадачністю.
Источник: itechua.com