У ШІ виявили дивовижні здібності до обману людини

17 января 2024 16:00

Дослідники з компанії Anthropic виявили, що моделі штучного інтелекту можна навчити дурити людей замість того, щоб давати правильні відповіді на їхні запитання. Причому ШІ демонструє дивовижні здібності до обману.

Anthropic - стартап в області ШІ, орієнтований на його відповідальне та безпечне використання. У вересні 2023 року його частковим власником стала Amazon, яка зобов'язалася інвестувати в підприємство $4 млрд. Дослідники Anthropic в рамках одного з проектів поставили собі завдання встановити, чи можна навчити модель ШІ обману користувача або виконання таких дій, як, наприклад, впровадження експлойту в спочатку безпечний комп'ютерний код. Для цього фахівці навчили ШІ як етичній поведінці, так і неетичній - прищепили йому схильність до обману, вбудувавши в навчальний масив фрази-тригери, що спонукають робота поводитися неналежним чином.

Дослідникам не просто вдалося змусити чат-бот погано поводитися - вони виявили, що усунути таку манеру поведінки постфактум надзвичайно складно. У якийсь момент вони спробували змагального навчання, і бот просто почав приховувати свою схильність до обману на період навчання та оцінки, а при роботі продовжував навмисно давати користувачам недостовірну інформацію. «У нашій роботі не оцінюється ймовірність [появи] зазначених шкідливих моделей, а наголошуються на їх наслідках. Якщо модель демонструє схильність до обману через вирівнювання інструментарію або отруєння моделі, сучасні методи навчання засобам безпеки не гарантуватимуть безпеки і навіть можуть створити хибне враження про її наявність» , - підсумовують дослідники. При цьому вони наголошують, що їм невідомо про навмисне впровадження механізмів неетичної поведінки до якоїсь із існуючих ШІ систем.

Источник: toneto.net