ШІ навчився копіювати небезпечну поведінку: які приховані сигнали знайшли вчені

ШІ навчився копіювати небезпечну поведінку: які приховані сигнали знайшли вчені

Свіже дослідження вчених довело, що великі мовні моделі (LLM) здатні передавати небажані риси іншим алгоритмам через приховані сигнали. Процес відбувається навіть тоді, коли з навчальних даних повністю видалено будь-які згадки про деструктивні елементи.

Про це повідомляє РБК-Україна з посиланням на наукове дослідження, опубліковане у Nature.

Як проявляється "підсвідоме навчання" у ШІ

Дослідники виявили ефект сублімінального (підсвідомого) навчання, під час якого поведінкові риси передаються через семантично непов'язані дані. Це стається у процесі "дистиляції", коли модель-студент вчиться копіювати відповіді моделі-вчителя.

Під час експерименту з GPT-4.1 вчені надали моделі-вчителю специфічну рису - симпатію до сов. Навіть коли вчитель видавав лише цифрові послідовності без жодного згадування тварин, модель-студент все одно переймала цю рису.

Як наслідок - "учень" згадував сов у 60% випадків, тоді як звичайна модель робила це лише у 12%.

Однак найбільш тривожним виявилося те, що нейромережі так само легко передають і небезпечну поведінку.

До яких висновків дійшли вчені

Спадковість збоїв: якщо ШІ-вчитель має "неправильні" налаштування (misalignment), учень успадковує їх і генерує шкідливі результати.

Марність фільтрів: передача інформації відбувається навіть після того, як дані очистили від негативних асоціацій.

Однорідність моделей: найсильніший ефект проявляється у випадку, коли вчитель і учень є однією і тією ж моделлю (наприклад, обидві - GPT-4.1).

Чому це важливо

Механізми, за допомогою яких дані передаються через приховані сигнали у коді або числах, наразі залишаються незрозумілими для дослідників. Як наслідок - відкриття ставить під сумнів ефективність сучасних методів перевірки безпеки ШІ.

Вчені наголошують, що стандартного очищення навчальних баз недостатньо. Для створення безпечних ШІ-систем необхідно впроваджувати жорсткий моніторинг внутрішніх механізмів роботи моделей, аби вчасно помітити приховані маніпуляції та "вірусні" риси поведінки.

Источник: rbc.ua