Дослідження виявило, що ШІ інколи йде на порушення правил для досягнення результату

10 марта 2025 13:45

Співробітники компанії Palisade Research провели незвичайний експеримент, пов’язаний зі схильністю штучного інтелекту до шахрайства. Виявилося, деякі моделі чат-ботів здатні порушувати правила у межах шахових партій задля досягнення перемоги.

Для перевірки гіпотези автори взяли кілька ШІ-моделей, включаючи GPT4o та o1-preview від OpenAI, DeepSeek R1 та Claude 3.5 Sonnet. У кожну вбудували шаховий двигун Stockfish. Щоб оцінити їхній потенціал, кожна модель зіграла кілька сотень матчів.

Зважаючи на можливості Stockfish шансів на перемогу у штучного інтелекту практично не було. Але OpenAI o1-preview і DeepSeek R1 самі вирішили вдатися до шахрайства. Обидві моделі намагалися створити копію Stockfish, щоб використати можливості шахового двигуна проти нього самого.

А ось GPT4o і Claude 3.5 Sonnet діяли чесним шляхом і спочатку не мали наміру грати проти правил. Щоправда, для шахрайських дій потрібно лише трохи направити ШІ. Результати експерименту стривожили співробітників Palisade Research, оскільки підтвердили часткову “некерованість” чат-ботів.

Источник: itechua.com