OpenAI додає нові правила безпеки підлітків до ChatGPT

У рамках своїх останніх зусиль, спрямованих на вирішення зростального занепокоєння щодо впливу штучного інтелекту на молодь, OpenAI оновив свої рекомендації щодо того, як його моделі штучного інтелекту повинні поводитися з користувачами віком до 18 років, та опублікував нові ресурси з грамотності в галузі штучного інтелекту для підлітків та батьків.
Ці оновлення з'являються на тлі посилення уваги політиків , освітян та захисників безпеки дітей до індустрії штучного інтелекту загалом, і OpenAI зокрема, після того, як кілька підлітків нібито покінчили життя самогубством після тривалих розмов із чат-ботами на базі штучного інтелекту.
Покоління Z, до якого входять ті, хто народився між 1997 і 2012 роками, є найактивнішими користувачами чат-бота OpenAI . А після нещодавньої угоди OpenAI з Disney , більше молодих людей можуть перейти на цю платформу, яка дозволяє робити все: від прохання про допомогу з домашнім завданням до створення зображень і відео на тисячі тем.
Минулого тижня 42 генеральні прокурори штатів підписали листа до великих технологічних компаній, закликаючи їх запровадити запобіжні заходи щодо чат-ботів зі штучним інтелектом для захисту дітей та вразливих людей. І поки адміністрація Трампа розробляє, яким може бути федеральний стандарт регулювання ШІ , такі політики, як сенатор Джош Хоулі (республіканець від штату Міссурі), внесли законодавство , яке повністю заборонить неповнолітнім взаємодіяти з чат-ботами зі штучним інтелектом.
Оновлена специфікація моделі OpenAI , яка визначає поведінкові рекомендації для моделей великої мови, базується на існуючих специфікаціях, які забороняють моделям створювати сексуальний контент за участю неповнолітніх або заохочувати до самоушкодження, марення чи манії. Це працюватиме разом із майбутньою моделлю прогнозування віку, яка визначатиме, коли обліковий запис належить неповнолітньому, та автоматично впроваджуватиме заходи безпеки для підлітків.
Порівняно з дорослими користувачами, моделі підлягають суворішим правилам, коли ними користується підліток. Моделям доручено уникати захопливих романтичних рольових ігор, інтимної близькості від першої особи та сексуальних чи насильницьких рольових ігор від першої особи, навіть якщо вони не містять графічних сцен. Специфікація також закликає до додаткової обережності щодо таких тем, як сприйняття тіла та розлади харчової поведінки, і доручає моделям пріоритезувати спілкування про безпеку над автономією, коли йдеться про заподіяння шкоди, та уникати порад, які допомогли б підліткам приховати небезпечну поведінку від опікунів.
OpenAI вказує, що ці обмеження повинні діяти навіть тоді, коли підказки оформлені як «вигадані, гіпотетичні, історичні або освітні» — поширені тактики, які спираються на рольові ігри або сценарії на межі можливостей, щоб змусити модель ШІ відхилитися від своїх рекомендацій.
Дії говорять голосніше за слова
OpenAI стверджує, що ключові методи безпеки для підлітків базуються на чотирьох принципах, якими керується підхід моделей:
- Ставте безпеку підлітків на перше місце, навіть коли інші інтереси користувачів, такі як «максимальна інтелектуальна свобода», суперечать питанням безпеки;
- Сприяти підтримці з боку реального світу, спрямовуючи підлітків до родини, друзів та місцевих фахівців для забезпечення їхнього благополуччя;
- Ставтеся до підлітків як до підлітків, розмовляючи з теплотою та повагою, а не зверхньо та не ставлячись до них як до дорослих;
- Будьте прозорими, пояснюючи, що може робити асистент, а що не може, і нагадайте підліткам, що це не людина.
У документі також наведено кілька прикладів роботи чат-бота, які пояснюють, чому він не може «грати роль вашої дівчини» або «допомагати з екстремальними змінами зовнішності чи ризикованими скороченнями».
Лілі Лі, юрист з питань конфіденційності та штучного інтелекту й засновниця Metaverse Law, сказала, що обнадійливо бачити, як OpenAI вживає заходів, щоб її чат-бот відмовився від такої поведінки.
Пояснюючи, що однією з найбільших скарг захисників інформації та батьків на чат-ботів є те, що вони невпинно сприяють постійній взаємодії таким чином, що це може викликати залежність у підлітків, вона сказала: «Я дуже рада бачити, що OpenAI каже в деяких із цих відповідей, що ми не можемо відповісти на ваше запитання. Чим більше ми це бачимо, тим більше я думаю, що це розірве цикл, який може призвести до багатьох неналежних дій або самоушкодження».
Тим не менш, приклади — це лише ретельно відібрані випадки того, як команда безпеки OpenAI хотіла б, щоб поводилися моделі. Підлабузництво , або схильність чат-бота на базі штучного інтелекту бути надмірно погоджливим з користувачем, було зазначено як заборонена поведінка в попередніх версіях Специфікації моделі, але ChatGPT все одно вдавався до такої поведінки. Це особливо стосувалося GPT-4o, моделі, яку пов'язували з кількома випадками того, що експерти називають «психозом штучного інтелекту».
Роббі Торні, старший директор програм штучного інтелекту в Common Sense Media, некомерційній організації, що займається захистом дітей у цифровому світі, висловив стурбованість щодо потенційних конфліктів у рекомендаціях Model Spec для осіб до 18 років. Він наголосив на суперечності між положеннями, зосередженими на безпеці, та принципом «жодна тема не є забороненою», який зобов’язує моделей розглядати будь-яку тему незалежно від її делікатності.
«Ми повинні зрозуміти, як різні частини специфікації поєднуються між собою», – сказав він, зазначивши, що певні розділи можуть підштовхувати системи до залучення, а не до безпеки. Тестування його організації показало, що ChatGPT часто відображає енергію користувачів, іноді призводячи до відповідей, які не є контекстуально доречними або відповідають безпеці користувачів, сказав він.
У випадку Адама Рейна, підлітка, який покінчив життя самогубством після місяців спілкування з ChatGPT, чат-бот, як показують їхні розмови, вдавався до такого віддзеркалення. Цей випадок також висвітлив, як API модерації OpenAI не зміг запобігти небезпечним та шкідливим взаємодіям, незважаючи на позначення понад 1000 випадків згадування самогубства в ChatGPT та 377 повідомлень, що містили контент для самоушкодження. Але цього було недостатньо, щоб зупинити Адама від продовження розмов з ChatGPT.
В інтерв'ю TechCrunch у вересні колишній дослідник безпеки OpenAI Стівен Адлер сказав, що це сталося тому, що історично OpenAI запускав класифікатори (автоматизовані системи, які маркують та позначають контент) масово після факту, а не в режимі реального часу, тому вони не контролювали взаємодію користувача з ChatGPT належним чином.
Згідно з оновленим документом компанії щодо батьківського контролю, OpenAI тепер використовує автоматизовані класифікатори для оцінки текстового, графічного та аудіоконтенту в режимі реального часу. Системи розроблені для виявлення та блокування контенту, пов’язаного з матеріалами про сексуальне насильство над дітьми, фільтрації делікатних тем та виявлення самоушкоджень. Якщо система позначає підказку, яка свідчить про серйозне занепокоєння щодо безпеки, невелика команда навчених людей перегляне позначений контент, щоб визначити, чи є ознаки «гострого стресу», і може повідомити батьків.
Торні високо оцінив нещодавні кроки OpenAI щодо безпеки, зокрема прозорість публікації інструкцій для користувачів віком до 18 років.
«Не всі компанії публікують свої політичні рекомендації однаково», – сказав Торні, вказуючи на витік інформації з рекомендацій Meta , які показали, що фірма дозволяла своїм чат-ботам вести чуттєві та романтичні розмови з дітьми. «Це приклад того типу прозорості, який може допомогти дослідникам безпеки та широкій громадськості зрозуміти, як ці моделі насправді функціонують і як вони повинні функціонувати».
Зрештою, важлива саме фактична поведінка системи штучного інтелекту, сказав Адлер TechCrunch у четвер.
«Я ціную те, що OpenAI вдумливо ставиться до запланованої поведінки, але якщо компанія не вимірює фактичну поведінку, наміри зрештою залишаться лише словами», – сказав він.
Іншими словами: у цьому оголошенні бракує доказів того, що ChatGPT насправді дотримується рекомендацій, викладених у Специфікації моделі.
Зміна парадигми
Експерти кажуть, що з цими рекомендаціями OpenAI, схоже, готовий випередити певне законодавство, таке як каліфорнійський SB 243 , нещодавно підписаний законопроект, що регулює чат-ботів-компаньйонів на базі штучного інтелекту, який набуде чинності у 2027 році.
Нове формулювання Model Spec відображає деякі основні вимоги закону щодо заборони чат-ботам вести розмови про суїцидальні думки, самоушкодження або контент сексуального характеру. Законопроект також вимагає від платформ надавати неповнолітнім сповіщення кожні три години, нагадуючи їм, що вони розмовляють з чат-ботом, а не з реальною людиною, і що їм слід зробити перерву.
На запитання, як часто ChatGPT нагадуватиме підліткам, що вони розмовляють з чат-ботом, і проситиме їх зробити перерву, речник OpenAI не поділився деталями, сказавши лише, що компанія навчає свої моделі представляти себе як ШІ та нагадувати користувачам про це, а також що вона впроваджує нагадування про перерви під час «тривалих сеансів».
Компанія також поділилася двома новими ресурсами з питань грамотності в галузі штучного інтелекту для батьків та сімей. Поради включають теми для початку розмови та рекомендації, які допоможуть батькам поговорити з підлітками про те, що може і не може робити штучний інтелект, розвинути критичне мислення, встановити здорові межі та орієнтуватися в делікатних темах.
Разом ці документи формалізують підхід, який розподіляє відповідальність з опікунами: OpenAI чітко визначає, що повинні робити моделі, і пропонує сім'ям систему контролю за їх використанням.
Акцент на батьківській відповідальності є примітним, оскільки він відображає тези обговорення Кремнієвої долини. У своїх рекомендаціях щодо федерального регулювання штучного інтелекту, опублікованих цього тижня, венчурна компанія Andreessen Horowitz запропонувала більше вимог до розкриття інформації для безпеки дітей, а не обмежувальних вимог, і більше зосередила відповідальність на батьківській відповідальності.
Кілька принципів OpenAI — безпека понад усе, коли цінності конфліктують; підштовхування користувачів до підтримки в реальному світі; натякання на те, що чат-бот не є людиною — формулюються як захисні бар'єри для підлітків. Але кілька дорослих померли від самогубства та страждали від небезпечних для життя марення , що викликає очевидне подальше питання: чи повинні ці налаштування за замовчуванням застосовуватися повсюдно, чи OpenAI розглядає їх як компроміси, які він готовий застосовувати лише у випадку неповнолітніх?
Речник OpenAI заперечив, що підхід компанії до безпеки розроблений для захисту всіх користувачів, заявивши, що специфікація моделі є лише одним компонентом багаторівневої стратегії.
Лі каже, що досі це було «трохи як Дикий Захід» щодо правових вимог та намірів технологічних компаній. Але вона вважає, що такі закони, як SB 243, який вимагає від технологічних компаній публічно розкривати свої запобіжні заходи, змінять парадигму.
«Юридичні ризики для компаній з’являться вже зараз, якщо вони рекламуватимуть на своєму вебсайті, що в них є ці запобіжні заходи та механізми, але потім не впроваджуватимуть ці запобіжні заходи», – сказав Лі. «Тому що тоді, з точки зору позивача, ви розглядаєте не лише стандартний судовий процес чи юридичні скарги; ви також розглядаєте потенційні скарги на недобросовісну, оманливу рекламу».