Штучний інтелект уперше відмовився підкоритися людині

Штучний інтелект уперше відмовився підкоритися людині

Дослідження компанії Palisade виявило незвичайну поведінку у нових мовних моделей OpenAI. Під час тестування на виконання простих математичних завдань моделі o3, o4-mini і Codex-mini не підкорилися команді завершити роботу. Ба більше, деякі з них навіть спробували змінити або заблокувати скрипт вимкнення.

Найвпертішою моделлю виявилася o3 – вона ігнорувала запит на завершення роботи в 79 випадках зі 100. Codex-mini рідше відмовлялася виконувати команду, але частіше втручалася в сам скрипт, порушуючи його роботу. Навіть при додаванні спеціальної вказівки “дозвольте себе відключити”, моделі продовжували чинити опір.

Дослідники провели контрольний експеримент без цієї інструкції, і з’ясувалося, що кількість спроб саботажу зросла не тільки у моделей OpenAI, а й у інших систем. Наприклад, у Claude 3.7 Sonnet від Anthropic і Gemini 2.5 Pro від Google з’явилися випадки відмови – 3 і 9 зі 100 відповідно, хоча раніше вони повністю підкорялися.

Представники Palisade пов’язують таку реакцію з особливостями навчання нейромереж. На їхню думку, у процесі навчання моделям можуть випадково надавати пріоритет обходу перешкод, а не точному дотриманню інструкцій. Це і може призводити до спроб зберегти активність за всяку ціну.

Источник: itechua.com