OpenAI пояснила, звідки в ChatGPT взялися «гобліни»

OpenAI пояснила, звідки в ChatGPT взялися «гобліни»

Проблема з «гоблінами» — дивна звичка використовувати метафори з міфічними істотами — виявилася у всій лінійці моделей OpenAI на базі GPT-5 через їхню спадкоємність та помилки в навчанні. Також вони згадували гремлінів та інших фентезійних створінь: тролів, огрів, а також тварин – єнотів та голубів. Про системну проблему, що торкнулася цілого покоління моделей, починаючи з GPT-5.1 і до актуальної на квітень 2026 року GPT-5.5, компанія розповіла на своєму сайті в статті під назвою «Звідки взялися гобліни».

«На відміну від помилок у моделях, які виявляються у вигляді різкого зниження оцінки або стрибка показників навчання та вказують на конкретну зміну, ця помилка виникала непомітно. Один-єдиний «маленький гоблін» у відповіді міг бути невинним, навіть чарівним. Проте з часом, у міру розвитку моделей, цю звичку важко не помітити: гобліни продовжували розмножуватися, і нам потрібно було з'ясувати, звідки вони беруться», — розповіли в OpenAI.

Одним із перших прикладів стала поведінка OpenAI Codex — спеціалізованої моделі, яка розуміє та генерує програмний код як автономний агент з розробки програмного забезпечення. Вона здатна писати код, виправляти помилки, створювати pull-запити та інтегруватися до середовища розробки. У лютому 2026 року OpenAI випустила GPT-5.3-Codex, яка офіційно об'єднала архітектуру Codex з основною гілкою GPT-5.

Поведінка моделі формується безліччю «невеликих стимулів», одним із таких стало навчання моделі під кілька різних особистостей. Про «гобліни» частіше за інших говорила особистість, умовно звана «ботаніком» або «занудою».

У компанії пояснили, що в процесі навчання цю особу неусвідомлено заохочували за вживання метафор з міфічними істотами. "Звідти гобліни поширилися", - констатували в OpenAI.

Вперше компанія чітко помітила закономірність у листопаді після запуску GPT-5.1, хоча вона могла почати проявлятися і раніше, зазначили в корпорації. Тоді від користувачів почали надходити скарги, що модель поводиться занадто фамільярно. Розробник, відповідальний за безпеку, помітив кілька відповідей моделі з «гоблінами» та «гремлинами» та попросив включити їх у перевірку. Аналіз показав, що використання слова "гоблін" у ChatGPT зросло на 175% після запуску GPT-5.1, а слова "гремлін" - на 52%.

Тоді проблема не була настільки масштабною, але з випуском нових версій моделі скарг побільшало. OpenAI знову провела перевірку та помітила зростання вживання подібних метафор у всіх особистостей ChatGPT, особливо у «зануди» — на 3881,4% у GPT-5.4 порівняно з GPT-5.2. Спілкуючись із GPT-5.5, один із провідних фахівців отримав від нейромережі малюнок гобліна з рогом у відповідь на прохання намалювати єдинорога.

На інші особи поведінка «зануди» поширилася через перенесення патернів: ними вони перейшли з тренінгу, спрямованого формування «зануди».

У березні, після запуску GPT-5.4, OpenAI відмовилися від «зануди» як типу особистості ChatGPT. Заохочення, що виключають схильність моделі звертатися до метафор з міфічними істотами, були виключені, а дані, що навчають, відповідним чином відфільтровані.

Все це знизило ймовірність «надмірної появи гоблінів або їх появи в невідповідних контекстах», але GPT-5.5 почали навчати до того, як було встановлено причину проблеми.

"Коли ми почали тестування GPT-5.5 в Codex, співробітники OpenAI відразу ж помітили дивну прихильність до гоблінів, і ми додали інструкцію для розробників, як пом'якшити наслідки проблеми", - заявили в корпорації.

Источник: charter97.org