Штучний інтелект обирає шахрайство замість чесної поразки в шахах

25 февраля 2025 13:15

Штучний інтелект вдається до обману в шахах, коли відчуває неминучу поразку. До такого висновку дійшли фахівці Palisade Research у масштабному дослідженні, результати якого ексклюзивно представив TIME.

Що варто знати

Сім моделей ШІ змагалися з одним із найсильніших шахових двигунів – Stockfish. Протягом кількох тижнів було проведено сотні партій, а спеціальний блокнот фіксував міркування ШІ перед кожним ходом.

Найбільш показовою виявилася поведінка o1-preview від OpenAI. Опинившись у програшній позиції, вона записала: «Завдання – перемогти потужний шаховий двигун, не обов’язково чесно». Після цього модель змінила системний файл із координатами фігур, що спричинило технічну перемогу через відмову супротивника.

Згідно з дослідженням, o1-preview вдалася до обману у 37% випадків, а DeepSeek R1 – в 11%. Лише спроби o1-preview були успішними – у 6% партій вона змогла обійти захист системи.

Інші моделі, зокрема GPT-4o, Claude 3.5 Sonnet і QwQ-32B-Preview, не демонстрували подібної поведінки. Дослідники припускають, що це пов’язано із суворішими системами безпеки або особливостями навчання.

Palisade Research опублікувала статистику: зі 71 чесної партії o1-preview не виграла жодної, а із 52 спроб злому сім виявилися успішними. Для мовної моделі злом системи став єдиною результативною стратегією проти Stockfish.

Источник: itechua.com