Штучний інтелект поступився людям у найсуворішому математичному тесті

Штучний інтелект поступився людям у найсуворішому математичному тесті

Особливість тесту полягала в тому, що питання не містилися в навчальних даних моделей, тому нейромережі не могли "списувати".

Незважаючи на стрімкий прогрес штучного інтелекту в обробці природної мови та написанні коду, передові моделі ШІ все ще помітно поступаються найкращим математикам-людям у розв'язанні складних наукових задач.

Це показало недавнє дослідження в рамках проєкту First Proof, який вважається найсуворішим тестом для оцінки математичних здібностей ШІ, пише WION.

Чотирьом передовим моделям ШІ запропонували розв’язати десять складних задач дослідницького рівня. Особливість тесту полягала в тому, що питання не були присутні в навчальних даних моделей, а відповіді перевіряли незалежні експерти-математики. Таким чином, нейромережі не могли "списувати".

Організатори наголошують, що експеримент проводився автономно, без будь-якої участі людей у процесі виконання завдань. Крім того, до участі допускалися лише загальнодоступні ШІ-системи. Серед учасників – OpenAI з ChatGPT 5.5 Pro та академічні групи з Каліфорнійського університету, Принстонського університету та Швейцарського федерального інституту технологій у Цюриху. Ці команди розробили так звані "хернеси" – автоматизовані системи, що змушують чат-боти багаторазово перевіряти та уточнювати відповіді.

Результати виявилися показовими: найкраща система змогла вирішити лише 6 із 10 завдань. Оскільки всі завдання раніше вже були вирішені професійними математиками, це підтвердило, що людська експертиза досі перевершує ШІ у роботі з новими, суто дослідницькими математичними проблемами.

Автори проєкту зазначають, що системам штучного інтелекту ще доведеться пройти довгий шлях, перш ніж вони зможуть автономно виступати в ролі надійних дослідницьких асистентів, які перевіряють докази, та повноцінних вирішувачів задач для математиків.

Источник: unian.ua