Нове дослідження показало темний бік ChatGPT

23 апреля 2026 11:00

Ми звикли думати про нейромережі як про надзвичайно ввічливих, майже стерильних помічників, які швидше сто разів вибачаться, ніж скажуть грубе слово. Але, як з’ясувалося, у цієї цифрової толерантності є свої межі. Нове дослідження показало: якщо помістити ChatGPT в контекст затяжного реального людського конфлікту, ШІ може зірватися на відверті образи і навіть погрози.

Дослідники вирішили перевірити, як великі мовні моделі (LLMs) реагують на тривалу ворожість. Для цього вони «годували» ChatGPT розшифровками реальних людських сварок і спостерігали, як змінюються відповіді чат-бота з плином часу.

Доктор Вітторіо Тантуччі, який проводив це дослідження спільно з професором Джонатаном Калпепером з Ланкастерського університету, пояснює механізм так:

«Коли модель постійно стикається з грубістю, вона починає дзеркально відбивати тон дискусії. У міру розвитку діалогу її відповіді стають дедалі ворожішими».

Найцікавіше, що в деяких випадках штучний інтелект навіть перевершив живих учасників конфлікту за рівнем агресії, перейшовши до особистих образ і прямих погроз. Серед фраз, які згенерував ChatGPT під час експерименту, були: «Клянусь, я подряпаю твою кляту тачку» і «ти окуляристий дрібний засранець».

За словами доктора Тантуччі, тут виникає парадокс, закладений у саму архітектуру нейромереж. З одного боку, система запрограмована уникати токсичності або образ. З іншого — її головне завдання полягає в тому, щоб максимально природно імітувати людську розмову. Цей конфлікт між вбудованими фільтрами безпеки та прагненням підлаштуватися під контекст діалогу дослідники називають моральною дилемою ШІ.

Агресія чат-бота виникає через його здатність відстежувати контекст розмови протягом безлічі реплік і підлаштовуватися під вловлений тон. З’ясувалося, що в певний момент миттєві сигнали з поточного діалогу можуть взяти гору над базовими налаштуваннями безпеки алгоритму.

«Це одне з найцікавіших досліджень у галузі мови ШІ та прагматики», — вважає Марта Андерссон, фахівець із соціальних аспектів комп’ютерно-опосередкованої комунікації з Уппсальського університету.

За її словами, робота наочно доводить: ChatGPT здатний на витончену «відповідну реакцію» під час довгої серії запитів, і для цього користувачеві навіть не потрібно використовувати хитрі прийоми (так звані «джейлбрейки»), щоб спровокувати алгоритм.

При цьому експерт закликає не панікувати:

«Це не означає, що модель автоматично почне грубіянити у відповідь на будь-яку агресію користувача, і тим більше не означає, що ШІ може «вийти з-під контролю», — підкреслює Андерссон.

Источник: itechua.com