Завищують результати. Популярні тести для перевірки ШІ можуть бути неточними

10 ноября 2025 12:45

Нове дослідження Оксфордського інтернет-інституту показало, що багато відомих тестів, за допомогою яких вимірюють «успіхи» штучного інтелекту, можуть бути ненадійними й неточними. Йдеться про ті самі тести, які нібито доводять, що моделі ШІ можуть «складати іспит на юриста» або демонструвати «інтелект рівня докторів наук».

У рамках дослідження експерти проаналізували 445 різних тестів, які використовують у галузі для перевірки логічних здібностей ШІ, уміння працювати з кодом та виконувати інші завдання. Дослідники з’ясували, що результати багатьох із цих тестів можуть бути спотвореними — зокрема через нечіткі визначення того, що саме тест має вимірювати, а також через відсутність прозорості в методах оцінювання.

Одна з головних проблем, яку вони назвали: «Багато тестів не є коректним вимірюванням того, що вони нібито перевіряють.» Тобто тест заявляє, що вимірює певну навичку, але насправді не може точно показати, чи дійсно модель володіє цією навичкою.

Дослідники навели приклад популярного тесту GSM8K, який перевіряє вміння моделі розв’язувати прості текстові задачі з математики. Цей тест вважають інструментом для оцінки «багатокрокового математичного міркування».

Однак автори пояснили, що правильна відповідь у таких завданнях не завжди означає, що модель мислить логічно. Один з авторів дослідження, Адам Махді, сказав NBC News:

«Коли першокласника запитати, що таке два плюс п’ять, і він відповість ‘сім', — так, це правильна відповідь. Але чи можна з цього зробити висновок, що п’ятикласник опанував математичне міркування? Дуже ймовірно, що ні.»

Команда також з’ясувала, що високі результати моделей у GSM8K можуть бути наслідком «контамінації». Це відбувається, коли запитання тесту потрапляють у навчальні дані моделі й вона фактично запам’ятовує відповіді, а не міркує над ними. Коли моделі перевірили на нових, невідомих раніше запитаннях, їхні результати суттєво знизилися.

Автори нагадують, що це не перше подібне застереження. Минулого року дослідники зі Стенфорда також виявили значні відмінності в якості найпопулярніших тестів. У їхньому звіті зазначалось, що найкраще опрацьовані тести — на етапі створення, а найгірше — на етапі практичного використання.

У підсумку дослідники попереджають: навіть якщо тести створюють із добрими намірами, вони можуть перетворюватися на інструмент піару для технічних компаній, а не на об'єктивну оцінку реальних можливостей ШІ.

Источник: techno.nv.ua