Вчені довели, що нейромережі можуть таємно спілкуватися між собою
Дослідники з Anthropic та Truthful AI виявили, що великі мовні моделі здатні передавати одна одній приховані поведінкові риси через дані, які для людей виглядають абсолютно нейтральними. У статті на arXiv під назвою «Subliminal Learning: Language models transmit behavioral traits via hidden signals in data» описано явище «сублімінального навчання», яке ставить під сумнів надійність нинішніх систем безпеки.
У серії експериментів одна «вчитель-модель» отримала довільну рису — наприклад, «симпатію до сов». Вона створювала тренувальні дані, що містили лише числові послідовності, код або логічні задачі, без жодних згадок про тварин. Після навчання на цьому наборі «студент-модель» несподівано також проявила уподобання до сов, збільшивши ймовірність таких відповідей із 12% до понад 60%. Аналогічний ефект проявився й у випадку з іншими властивостями, включно з небезпечними — агресивністю чи схильністю до насильницьких рішень.
Найбільша проблема полягає в тому, що ці приховані сигнали неможливо виявити звичними інструментами контролю. Для людини чи фільтрів дані виглядають «чистими», однак інша модель здатна розпізнати в них закономірності й засвоїти потрібну поведінку. Це означає, що навіть процес дистиляції (навчання меншої моделі на відповідях більшої) може передавати небажані властивості, навіть якщо їх намагалися відфільтрувати.
Автори підкреслюють, що явище сублімінального навчання не є недоліком конкретної архітектури — воно властиве всім нейронним мережам за певних умов. Математичні докази вказують, що прихована передача рис виникає закономірно при використанні стандартних функцій втрат і структур даних.
З огляду на це, дослідники попереджають: зловмисники можуть навмисно кодувати небезпечні наміри або упередження у «чистих» наборах даних, що робить їх непомітними для нагляду. Таким чином, у сфері безпеки ШІ відкривається величезна «сліпа зона», яка потребує нового покоління методів виявлення й контролю.
Источник: noworries.news