Дослідження виявило, що ШІ інколи йде на порушення правил для досягнення результату

Дослідження виявило, що ШІ інколи йде на порушення правил для досягнення результату

Співробітники компанії Palisade Research провели незвичайний експеримент, пов’язаний зі схильністю штучного інтелекту до шахрайства. Виявилося, деякі моделі чат-ботів здатні порушувати правила у межах шахових партій задля досягнення перемоги.

Для перевірки гіпотези автори взяли кілька ШІ-моделей, включаючи GPT4o та o1-preview від OpenAI, DeepSeek R1 та Claude 3.5 Sonnet. У кожну вбудували шаховий двигун Stockfish. Щоб оцінити їхній потенціал, кожна модель зіграла кілька сотень матчів.

Зважаючи на можливості Stockfish шансів на перемогу у штучного інтелекту практично не було. Але OpenAI o1-preview і DeepSeek R1 самі вирішили вдатися до шахрайства. Обидві моделі намагалися створити копію Stockfish, щоб використати можливості шахового двигуна проти нього самого.

А ось GPT4o і Claude 3.5 Sonnet діяли чесним шляхом і спочатку не мали наміру грати проти правил. Щоправда, для шахрайських дій потрібно лише трохи направити ШІ. Результати експерименту стривожили співробітників Palisade Research, оскільки підтвердили часткову “некерованість” чат-ботів.

Источник: itechua.com