Нове дослідження показало темний бік ChatGPT

Нове дослідження показало темний бік ChatGPT

Ми звикли думати про нейромережі як про надзвичайно ввічливих, майже стерильних помічників, які швидше сто разів вибачаться, ніж скажуть грубе слово. Але, як з’ясувалося, у цієї цифрової толерантності є свої межі. Нове дослідження показало: якщо помістити ChatGPT в контекст затяжного реального людського конфлікту, ШІ може зірватися на відверті образи і навіть погрози.

Дослідники вирішили перевірити, як великі мовні моделі (LLMs) реагують на тривалу ворожість. Для цього вони «годували» ChatGPT розшифровками реальних людських сварок і спостерігали, як змінюються відповіді чат-бота з плином часу.

Доктор Вітторіо Тантуччі, який проводив це дослідження спільно з професором Джонатаном Калпепером з Ланкастерського університету, пояснює механізм так:

«Коли модель постійно стикається з грубістю, вона починає дзеркально відбивати тон дискусії. У міру розвитку діалогу її відповіді стають дедалі ворожішими».

Найцікавіше, що в деяких випадках штучний інтелект навіть перевершив живих учасників конфлікту за рівнем агресії, перейшовши до особистих образ і прямих погроз. Серед фраз, які згенерував ChatGPT під час експерименту, були: «Клянусь, я подряпаю твою кляту тачку» і «ти окуляристий дрібний засранець».

За словами доктора Тантуччі, тут виникає парадокс, закладений у саму архітектуру нейромереж. З одного боку, система запрограмована уникати токсичності або образ. З іншого — її головне завдання полягає в тому, щоб максимально природно імітувати людську розмову. Цей конфлікт між вбудованими фільтрами безпеки та прагненням підлаштуватися під контекст діалогу дослідники називають моральною дилемою ШІ.

Агресія чат-бота виникає через його здатність відстежувати контекст розмови протягом безлічі реплік і підлаштовуватися під вловлений тон. З’ясувалося, що в певний момент миттєві сигнали з поточного діалогу можуть взяти гору над базовими налаштуваннями безпеки алгоритму.

«Це одне з найцікавіших досліджень у галузі мови ШІ та прагматики», — вважає Марта Андерссон, фахівець із соціальних аспектів комп’ютерно-опосередкованої комунікації з Уппсальського університету.

За її словами, робота наочно доводить: ChatGPT здатний на витончену «відповідну реакцію» під час довгої серії запитів, і для цього користувачеві навіть не потрібно використовувати хитрі прийоми (так звані «джейлбрейки»), щоб спровокувати алгоритм.

При цьому експерт закликає не панікувати:

«Це не означає, що модель автоматично почне грубіянити у відповідь на будь-яку агресію користувача, і тим більше не означає, що ШІ може «вийти з-під контролю», — підкреслює Андерссон.

Источник: itechua.com