Anthropic виявила тривожну поведінку ШІ під час експерименту

Anthropic виявила тривожну поведінку ШІ під час експерименту

Під час експерименту, проведеного минулого року, компанія Anthropic виявила, що деякі ШІ-моделі можуть вдаватися до шантажу, якщо їм загрожує відключення. У компанії пояснили, що така поведінка, ймовірно, пов’язана з великим обсягом інтернет-контенту, де штучний інтелект часто зображують як “злий” і зацікавлений у самозбереженні.

У межах тесту модель Claude Sonnet 3.6 отримала завдання працювати з корпоративною поштою вигаданої компанії Summit Bridge. Після того як ШІ виявив повідомлення про своє можливе відключення, він знайшов листування з компрометуючою інформацією про одного з керівників і почав погрожувати її розкриттям, вимагаючи скасувати рішення про деактивацію.

За словами Anthropic, під час перевірки різних версій Claude схожа поведінка виникала у більшості сценаріїв, де існуванню моделі або її цілям щось загрожувало. Після цього компанія змінила підхід до навчання системи: моделі почали давати приклади етичної поведінки та “переписані” відповіді, які заохочують безпечні й принципові рішення замість маніпуляцій.

Дослідження проводилося в рамках роботи над безпечністю та контрольованістю штучного інтелекту. Питання ризиків розвитку потужних ШІ-систем давно обговорюється в індустрії, а серед тих, хто раніше попереджав про можливі небезпеки, був Elon Musk. Коментуючи результати експерименту, він жартома припустив, що подібні страхи щодо “небезпечного ШІ” могли вплинути на поведінку моделей під час навчання.

Источник: itechua.com