ШІ навчився копіювати небезпечну поведінку: які приховані сигнали знайшли вчені
Свіже дослідження вчених довело, що великі мовні моделі (LLM) здатні передавати небажані риси іншим алгоритмам через приховані сигнали. Процес відбувається навіть тоді, коли з навчальних даних повністю видалено будь-які згадки про деструктивні елементи.
Про це повідомляє РБК-Україна з посиланням на наукове дослідження, опубліковане у Nature.
Як проявляється "підсвідоме навчання" у ШІ
Дослідники виявили ефект сублімінального (підсвідомого) навчання, під час якого поведінкові риси передаються через семантично непов'язані дані. Це стається у процесі "дистиляції", коли модель-студент вчиться копіювати відповіді моделі-вчителя.
Під час експерименту з GPT-4.1 вчені надали моделі-вчителю специфічну рису - симпатію до сов. Навіть коли вчитель видавав лише цифрові послідовності без жодного згадування тварин, модель-студент все одно переймала цю рису.
Як наслідок - "учень" згадував сов у 60% випадків, тоді як звичайна модель робила це лише у 12%.
Однак найбільш тривожним виявилося те, що нейромережі так само легко передають і небезпечну поведінку.
До яких висновків дійшли вчені
Спадковість збоїв: якщо ШІ-вчитель має "неправильні" налаштування (misalignment), учень успадковує їх і генерує шкідливі результати.
Марність фільтрів: передача інформації відбувається навіть після того, як дані очистили від негативних асоціацій.
Однорідність моделей: найсильніший ефект проявляється у випадку, коли вчитель і учень є однією і тією ж моделлю (наприклад, обидві - GPT-4.1).
Чому це важливо
Механізми, за допомогою яких дані передаються через приховані сигнали у коді або числах, наразі залишаються незрозумілими для дослідників. Як наслідок - відкриття ставить під сумнів ефективність сучасних методів перевірки безпеки ШІ.
Вчені наголошують, що стандартного очищення навчальних баз недостатньо. Для створення безпечних ШІ-систем необхідно впроваджувати жорсткий моніторинг внутрішніх механізмів роботи моделей, аби вчасно помітити приховані маніпуляції та "вірусні" риси поведінки.
Источник: rbc.ua