Ілюзія інтелекту. Дослідження викрило критичні помилки ChatGPT у наукових питаннях
Сучасні моделі штучного інтелекту, зокрема популярний ChatGPT, припускаються наукових помилок значно частіше, ніж очікує більшість користувачів.
Професор Месут Чічек з Університету штату Вашингтон разом із групою дослідників провів масштабне тестування нейромережі, результати якого опубліковано в журналі Rutgers Business Review. Команда проаналізувала 719 наукових гіпотез, взятих із бізнес-видань, щоб перевірити здатність ШІ розрізняти істинні та хибні твердження.
Експеримент, що тривав протягом 2024 та 2025 років, показав неоднозначні результати. Хоча номінальна точність відповідей ChatGPT зросла з 76,5% до 80%, після врахування фактору випадковості реальні показники виявилися невтішними. Ефективність системи була лише на 60% вищою за випадковий вибір, що за академічними стандартами відповідає низькому рівню оцінки D.
Найбільші труднощі у ШІ викликало розпізнавання хибних тверджень — система правильно ідентифікувала їх лише у 16,4% випадків.
Особливе занепокоєння викликає непослідовність алгоритмів. Під час десятикратного повторення одного й того самого запиту ChatGPT демонстрував узгоджені відповіді лише у 73% випадків. Професор Чічек зазначає, що за ідентичних умов ШІ міг п’ять разів назвати гіпотезу «вірною» і стільки ж разів — «хибною». Це свідчить про відсутність глибокого концептуального розуміння: моделі просто маніпулюють запам’ятованими даними, створюючи переконливі, але фактично помилкові тексти.
Дослідники порівнювали роботу безкоштовної версії ChatGPT-3.5 та новішої ChatGPT-5 mini, проте суттєвого прориву в логічному мисленні не зафіксували. Науковці рекомендують фахівцям ставитися до згенерованої інформації зі скептицизмом і обов’язково перевіряти її через надійні джерела.
На думку авторів роботи, створення загального штучного інтелекту, здатного до справжнього «мислення», все ще залишається далекою перспективою.
Источник: techno.nv.ua