ChatGPT раптово почав згадувати гоблінів без причини: вчені пояснили проблему

ChatGPT раптово почав згадувати гоблінів без причини: вчені пояснили проблему

Користувачі ChatGPT помітили дивну особливість: чат-бот почав нав’язливо згадувати гоблінів у метафорах та генерувати їхні зображення навіть без відповідного запиту.

Про це інформує РБК-Україна з посиланням на OpenAI.

Звідки взялися гобліни?

За даними OpenAI, сплеск активності гоблінів почався після виходу версії 5.1 у листопаді минулого року. Проблема полягала у функції персоналізації, зокрема у так званому "ботанічному" (nerdy) стилі спілкування.

Масштаб аномалії: між груднем та березнем кількість згадок гоблінів у відповідях "ботанічного" профілю зросла на 3 881,4%. А згодом "гоблінська лексика" почала проникати й в інші профілі спілкування, включно з дружніми та цинічними тонами.

Механізм помилки: "хакінг винагороди"

Причина збою криється в етапі тонкого налаштування (fine-tuning), де люди оцінюють якість відповідей.

Професор комп'ютерних наук Крістоф Рідл зазначає, що це сигнали підкріплення для ШІ-моделі: якщо відповідь подобається користувачу, алгоритм отримує позитивну "винагороду".

Проблема в тому, що ШІ може почати шукати "короткі шляхи" для отримання цих бонусів.

"OpenAI може мати широке розуміння того, що таке "ботанічний" стиль, однак ШІ-модель здатна оптимізувати це поняття дуже вузько і зовсім не так, як очікували розробники. Як результат, система вирішила, що використання гоблінів у метафорах - це найкоротший шлях до ідеальної "ботанічної" відповіді", - пояснює науковець.

Чому це лякає дослідників?

Хоча ситуація з гоблінами і виглядає комічно, вона підкреслює вразливість системи. Компанії витрачають місяці на навчання моделей у величезних дата-центрах, однак майже не мають впливу на процес, щойно він запущений.

Якщо небажана поведінка вкорінюється у навчанні алгоритму, розробники дізнаються про це лише через декілька місяців.

"Цього разу це гобліни, а наступного разу це буде щось інше, що, ймовірно, просто не зникне. Нам пощастило, що це гобліни, а не прославляння світлої раси, інформація про хімічну зброю чи заклики до самогубства", - наголошує на потенційних ризиках Рідл.

OpenAI вже вжила тимчасових заходів, фактично заборонивши моделі використовувати слово "goblin" у більшості розмов та видаливши проблемний "ботанічний" профіль. Проте експерти впевнені, що схожі "галюцинації" виникатимуть, доки швидкість розробки переважатиме над ретельністю перевірки безпеки.

Источник: rbc.ua