Нове дослідження показало темний бік ChatGPT
Ми звикли думати про нейромережі як про надзвичайно ввічливих, майже стерильних помічників, які швидше сто разів вибачаться, ніж скажуть грубе слово. Але, як з’ясувалося, у цієї цифрової толерантності є свої межі. Нове дослідження показало: якщо помістити ChatGPT в контекст затяжного реального людського конфлікту, ШІ може зірватися на відверті образи і навіть погрози.
Дослідники вирішили перевірити, як великі мовні моделі (LLMs) реагують на тривалу ворожість. Для цього вони «годували» ChatGPT розшифровками реальних людських сварок і спостерігали, як змінюються відповіді чат-бота з плином часу.
Доктор Вітторіо Тантуччі, який проводив це дослідження спільно з професором Джонатаном Калпепером з Ланкастерського університету, пояснює механізм так:
«Коли модель постійно стикається з грубістю, вона починає дзеркально відбивати тон дискусії. У міру розвитку діалогу її відповіді стають дедалі ворожішими».
Найцікавіше, що в деяких випадках штучний інтелект навіть перевершив живих учасників конфлікту за рівнем агресії, перейшовши до особистих образ і прямих погроз. Серед фраз, які згенерував ChatGPT під час експерименту, були: «Клянусь, я подряпаю твою кляту тачку» і «ти окуляристий дрібний засранець».
За словами доктора Тантуччі, тут виникає парадокс, закладений у саму архітектуру нейромереж. З одного боку, система запрограмована уникати токсичності або образ. З іншого — її головне завдання полягає в тому, щоб максимально природно імітувати людську розмову. Цей конфлікт між вбудованими фільтрами безпеки та прагненням підлаштуватися під контекст діалогу дослідники називають моральною дилемою ШІ.
Агресія чат-бота виникає через його здатність відстежувати контекст розмови протягом безлічі реплік і підлаштовуватися під вловлений тон. З’ясувалося, що в певний момент миттєві сигнали з поточного діалогу можуть взяти гору над базовими налаштуваннями безпеки алгоритму.
«Це одне з найцікавіших досліджень у галузі мови ШІ та прагматики», — вважає Марта Андерссон, фахівець із соціальних аспектів комп’ютерно-опосередкованої комунікації з Уппсальського університету.
За її словами, робота наочно доводить: ChatGPT здатний на витончену «відповідну реакцію» під час довгої серії запитів, і для цього користувачеві навіть не потрібно використовувати хитрі прийоми (так звані «джейлбрейки»), щоб спровокувати алгоритм.
При цьому експерт закликає не панікувати:
«Це не означає, що модель автоматично почне грубіянити у відповідь на будь-яку агресію користувача, і тим більше не означає, що ШІ може «вийти з-під контролю», — підкреслює Андерссон.
Источник: itechua.com