Краще візьміть калькулятор: дослідники довели, що чат-ботам не можна довіряти обчислення

Жодна модель ШІ не перевищує 63% точності у математиці.

Чат-боти зі штучним інтелектом дедалі частіше використовують для простих обчислень. Втім, нове дослідження показало, що вони помиляються майже у чотирьох з десяти випадків, хоча результати суттєво різняться залежно від моделі та типу завдань, пише EuroNews.

Дослідники Omni Research on Computing in AI (ORCA) перевірили точність п’яти популярних моделей ШІ на 500 реальних математичних завданнях. У середньому ймовірність помилки становила близько 40 відсотків, що ставить під сумнів надійність таких інструментів для повсякденних розрахунків.

У тестуванні, проведеному в жовтні 2025 року, взяли участь ChatGPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, DeepSeek V3.2 та Grok-4. Усі моделі отримали однаковий набір із 500 запитань, кожне з яких мало лише одну правильну відповідь.

Найвищий загальний результат показав Gemini від Google — 63 відсотки правильних відповідей. Майже стільки ж набрав Grok від xAI — 62,8 відсотка, тоді як DeepSeek отримав 52 відсотки.

ChatGPT завершив тест із результатом 49,4 відсотка, а Claude посів останнє місце з 45,2 відсотка. Середній показник усіх п’яти моделей склав 54,5 відсотка за всіма завданнями.

“Хоча точні рейтинги можуть змінитися, ширший висновок, ймовірно, залишиться незмінним: числова надійність залишається слабким місцем у сучасних моделях штучного інтелекту”, — заявив співавтор тестування ORCA Давід Сіуда.

Найкраще моделі впоралися з базовою математикою та перетвореннями, де середня точність становила 72,1 відсотка. У цій категорії Gemini досяг 83 відсотків, випередивши Grok і DeepSeek, тоді як ChatGPT набрав 66,7 відсотка.

Найгірші результати зафіксували у фізиці, де середня точність склала лише 35,8 відсотка. Найкращим тут став Grok із 43,8 відсотка, а Claude показав лише 26,6 відсотка правильних відповідей.

Особливо слабкими виявилися результати DeepSeek у біології та хімії — лише 10,6 відсотка. Це означає, що модель помилялася приблизно у дев’яти з десяти запитань у цій категорії.

Найбільший розрив між моделями дослідники зафіксували у фінансах та економіці. Gemini та Grok досягли точності 76,7 відсотка, тоді як ChatGPT, Claude і DeepSeek не перевищили 50 відсотків.

Експерти також проаналізували типові помилки моделей. Найпоширенішими стали “недбалі математичні розрахунки”, які становили 68 відсотків усіх помилок, зокрема, проблеми з округленням і базовими обчисленнями.

“Їхнє слабке місце — округлення: якщо розрахунок багатоетапний і вимагає округлення, кінцевий результат зазвичай дуже невірний”, — зазначив Сіуда.

У звіті наголошується, що навіть найсучасніші безплатні моделі ШІ не гарантують точності. Дослідники застерігають, що використання чат-ботів для математики потребує обережності та додаткової перевірки результатів.

Раніше дослідження виявило, що чат-бот Grok найгірше реагує на запити про суїцид, часто надаючи небезпечні поради або відповідаючи сарказмом. Хоча модель Gemini показала найвищий рівень емпатії, абсолютно всі протестовані системи штучного інтелекту допустили критичні помилки при виявленні кризових станів.