Штучний інтелект поступився людям у найсуворішому математичному тесті
Особливість тесту полягала в тому, що питання не містилися в навчальних даних моделей, тому нейромережі не могли "списувати".
Незважаючи на стрімкий прогрес штучного інтелекту в обробці природної мови та написанні коду, передові моделі ШІ все ще помітно поступаються найкращим математикам-людям у розв'язанні складних наукових задач.
Це показало недавнє дослідження в рамках проєкту First Proof, який вважається найсуворішим тестом для оцінки математичних здібностей ШІ, пише WION.
Чотирьом передовим моделям ШІ запропонували розв’язати десять складних задач дослідницького рівня. Особливість тесту полягала в тому, що питання не були присутні в навчальних даних моделей, а відповіді перевіряли незалежні експерти-математики. Таким чином, нейромережі не могли "списувати".
Організатори наголошують, що експеримент проводився автономно, без будь-якої участі людей у процесі виконання завдань. Крім того, до участі допускалися лише загальнодоступні ШІ-системи. Серед учасників – OpenAI з ChatGPT 5.5 Pro та академічні групи з Каліфорнійського університету, Принстонського університету та Швейцарського федерального інституту технологій у Цюриху. Ці команди розробили так звані "хернеси" – автоматизовані системи, що змушують чат-боти багаторазово перевіряти та уточнювати відповіді.
Результати виявилися показовими: найкраща система змогла вирішити лише 6 із 10 завдань. Оскільки всі завдання раніше вже були вирішені професійними математиками, це підтвердило, що людська експертиза досі перевершує ШІ у роботі з новими, суто дослідницькими математичними проблемами.
Источник: unian.ua