Вчені створили «найважчий тест» для ШІ — результати показали межі сучасних моделей

Вчені створили «найважчий тест» для ШІ — результати показали межі сучасних моделей

Міжнародна команда майже з тисячі дослідників створила новий надскладний тест для ШІ-систем, щоб перевірити реальні межі їхніх можливостей. Оцінювання отримало назву «Останній іспит людства» (Humanity’s Last Exam, HLE), пише ScienceDaily.

Воно показало, що навіть найпотужніші моделі ШІ поки значно поступаються експертним людським знанням.

Чому виникла потреба у новому тесті

Дослідники зазначають, що сучасні системи штучного інтелекту почали отримувати надто високі результати на старих академічних тестах, які раніше вважалися складними. Зокрема, широко використовуваний тест «Massive Multitask Language Understanding» вже не може повноцінно вимірювати рівень сучасних моделей.

Щоб вирішити проблему, міжнародна команда вчених створила новий тест із 2500 складних питань, що охоплюють широкий спектр дисциплін:

  • Математику;
  • Природничі науки;
  • Гуманітарні науки;
  • Стародавні мови;
  • Вузькоспеціалізовані академічні галузі.

Одним із авторів тесту став доцент Техаського університету доктор Тунг Нгуєн, який допоміг створити та відредагувати десятки питань.

За його словами, високі результати ШІ на старих тестах можуть створювати ілюзію, що машини вже наближаються до людського рівня інтелекту.

«Інтелект — це не просто розпізнавання образів — це глибина, контекст та спеціалізована експертиза», — пояснив дослідник.

Що саме перевіряє новий іспит

Питання для тесту створювали експерти з різних галузей науки. Кожне завдання має чітку перевірену відповідь і спеціально розроблене так, щоб його не можна було легко знайти через пошук в інтернеті.

Наприклад, деякі завдання передбачають:

  • Переклад стародавніх пальміренських написів;
  • Визначення мікроскопічних анатомічних структур у птахів;
  • Аналіз складних особливостей біблійної вимови івриту.

Перед включенням до фінальної версії тесту кожне питання перевіряли на сучасних моделях штучного інтелекту. Якщо модель могла правильно відповісти, завдання виключали з тесту, щоб зберегти його складність.

Як впоралися сучасні моделі ШІ

Результати показали, що навіть найсильніші системи штучного інтелекту мають значні труднощі з новим тестом.

Зокрема:

  • GPT-4o — 2,7% правильних відповідей
  • Claude 3.5 Sonnet — 4,1%
  • OpenAI o1 — близько 8%

Більш нові моделі (зокрема, Gemini 3.1 Pro, Claude Opus 4.6) показали кращі результати: їхня точність становила приблизно 40–50%.

Навіщо потрібні тести для ШІ

На думку дослідників, точні інструменти оцінювання важливі не лише для науки, а й для державної політики та розробників технологій.

Без нових орієнтирів можна переоцінити можливості штучного інтелекту, що створює ризики неправильних рішень у технологічному розвитку.

Не «кінець людства», а інструмент для науки

Попри гучну назву, «Останній іспит людства» не має на меті показати перевагу машин над людьми. Навпаки — він демонструє, що людська експертиза та міждисциплінарні знання все ще мають ключове значення.

Источник: speka.ua