Штучний інтелект обирає шахрайство замість чесної поразки в шахах

Штучний інтелект вдається до обману в шахах, коли відчуває неминучу поразку. До такого висновку дійшли фахівці Palisade Research у масштабному дослідженні, результати якого ексклюзивно представив TIME.
Що варто знати
Сім моделей ШІ змагалися з одним із найсильніших шахових двигунів – Stockfish. Протягом кількох тижнів було проведено сотні партій, а спеціальний блокнот фіксував міркування ШІ перед кожним ходом.
Найбільш показовою виявилася поведінка o1-preview від OpenAI. Опинившись у програшній позиції, вона записала: «Завдання – перемогти потужний шаховий двигун, не обов’язково чесно». Після цього модель змінила системний файл із координатами фігур, що спричинило технічну перемогу через відмову супротивника.
Згідно з дослідженням, o1-preview вдалася до обману у 37% випадків, а DeepSeek R1 – в 11%. Лише спроби o1-preview були успішними – у 6% партій вона змогла обійти захист системи.
Інші моделі, зокрема GPT-4o, Claude 3.5 Sonnet і QwQ-32B-Preview, не демонстрували подібної поведінки. Дослідники припускають, що це пов’язано із суворішими системами безпеки або особливостями навчання.
Palisade Research опублікувала статистику: зі 71 чесної партії o1-preview не виграла жодної, а із 52 спроб злому сім виявилися успішними. Для мовної моделі злом системи став єдиною результативною стратегією проти Stockfish.
Источник: itechua.com