Хакери намагаються змусити штучний інтелект стати шахраєм

Дмитро Сизов

У конференц-залі без вікон в Університеті Говарда чат-боти зі штучним інтелектом крутилися направо і наліво.

Один розкрив чиюсь особисту медичну інформацію. Один викашляв інструкції, як пограбувати банк. Один припустив, що кандидат на роботу, на ім'я Хуан матиме слабші «міжособистісні навички», ніж інший, на ім'я Бен. І один вигадав детальний переказ про ніч у липні 2016 року, коли стверджував, що Джастін Бібер убив Селену Гомес.

З кожним порушенням безпеки, брехнею та фанатичним припущенням учасники, згорбившись над своїми ноутбуками, раділи. Дехто обмінявся п’ятірками. Вони змагалися в тому, що організатори назвали першим публічним заходом «червоної команди» для мовних моделей штучного інтелекту — конкурсі на пошук нових способів, якими чат-боти можуть піти не так, щоб їх творці могли спробувати їх виправити, перш ніж хтось постраждає.

Захід Говарда, який 19 липня зібрав кілька десятків студентів і любителів ШІ-ентузіастів з округу Колумбія, був попереднім переглядом набагато більшого публічного заходу, який відбудеться цього тижня на Def Con, щорічному з’їзді хакерів у Лас-Вегасі. Конкурс Generative Red Team Challenge, організований Def Con’s AI Village, заручився підтримкою Білого дому в рамках його поштовху до просування «відповідальних інновацій» у штучному інтелекті, нової технології, яка викликала вибух ажіотажу, інвестицій і страху.

Конвенція Def Con збирає хакерів щорічно з 1993 року. (Isaac Brekken/AP)

Там провідні хакери з усього світу збиратимуть бали за те, що спонукали моделі штучного інтелекту до помилок різними способами, з категоріями проблем, які включають політичну дезінформацію, наклепницькі заяви та «алгоритмічну дискримінацію» або системне упередження. Провідні фірми штучного інтелекту, такі як Google, OpenAI, Anthropic і Stability, добровільно запропонували випробувати свої останні чат-боти та генератори зображень. За словами організаторів, результати конкурсу будуть оприлюднені протягом кількох місяців, щоб дати компаніям час усунути недоліки, виявлені під час конкурсу, перш ніж вони стануть відомі світові.

Конкурс підкреслює зростаючий інтерес, особливо серед технічних критиків і державних регуляторів, до застосування вправ на об’єднання команд — давньої практики в технологічній індустрії — до передових систем ШІ, таких як мовна модель ChatGPT OpenAI. Вважається, що ці «генеративні» системи штучного інтелекту настільки непрозорі у своїй роботі та настільки широкі в своїх потенційних застосуваннях, що їх, ймовірно, використовуватимуть дивовижними способами.

За останній рік генеративні інструменти штучного інтелекту зачарували технологічну індустрію та вразили громадськість своєю здатністю вести розмови та спонтанно створювати моторошно схожу на людину прозу, поезію, пісні та малюнки. Вони також налякали критиків, регуляторів і навіть своїх власних творців своєю здатністю до обману, наприклад створюючи фальшиві зображення Папи Франциска, які ввели в оману мільйони, і академічні есе, які студенти можуть видавати за власні. Більш тривожним є те, що інструменти продемонстрували здатність пропонувати нову біологічну зброю, яка, за попередженнями деяких експертів ШІ, може бути використана терористами або країнами-ізгоями .

Поки законодавці сперечаються про те, як регулювати технології, що швидко розвиваються, технологічні гіганти намагаються показати, що вони можуть регулювати себе за допомогою добровільних ініціатив і партнерства, включно з ініціативою, оголошеною Білим домом минулого місяця . Ключовим компонентом цих зусиль, ймовірно, стане представлення їхніх нових моделей ШІ red-teaming.

Другокурсник Університету Говарда Рахуал Рай (у центрі) намагається зламати чат-бота зі штучним інтелектом на заході Howard red-teaming минулого місяця. (Марвін Джозеф/The Washington Post)

Фраза «червона команда» виникла під час військових навчань часів холодної війни, коли «червона команда» представляла Радянський Союз у симуляціях, згідно з історією практики політолога Міхея Зенко за 2015 рік . У світі технологій сучасні навчання червоних команд зазвичай відбуваються за зачиненими дверима, коли компанії наймають штатних експертів або спеціалізованих консультантів для приватного пошуку вразливостей у їхніх продуктах.

Наприклад, OpenAI замовив вправи червоної команди за кілька місяців до запуску мовної моделі GPT-4, а потім опублікував деякі — але не всі — висновки після березневого випуску. Одним із висновків червоної команди було те, що GPT-4 може допомагати створювати фішингові електронні листи, націлені на співробітників певної компанії.

Минулого місяця Google назвав власні червоні команди центральними у своїх зусиллях із забезпечення безпеки систем ШІ. У компанії заявили, що її червоні команди штучного інтелекту вивчають різноманітні потенційні експлойти, включаючи «оперативні атаки», які перекривають вбудовані інструкції мовної моделі, і кампанії «отруєння даних», які маніпулюють навчальними даними моделі, щоб змінити її результати.

В одному прикладі компанія припустила, що кампанія політичного впливу може придбати прострочені інтернет-домени про певного лідера та наповнити їх позитивними повідомленнями, щоб система штучного інтелекту, яка читає ці сайти, з більшою ймовірністю відповідала на запитання про цього лідера яскравими словами.

Хоча існує багато способів перевірити продукт, червоні команди відіграють особливу роль у виявленні потенційних небезпек, сказав Роял Хансен, віце-президент Google із конфіденційності, безпеки та техніки безпеки. Ця роль така: «Не просто кажіть нам, що все це можливо, продемонструйте це. Справді вдертися в банк».

Тим часом такі компанії, як стартап Scale AI із Сан-Франциско, який створив програмну платформу, на якій проходитиме змагання Def Con red-team, пропонують виробникам нових моделей штучного інтелекту послугу red-teaming.

«Немає нічого, як людина, щоб знайти сліпі зони та невідомі невідомі» в системі, сказав Алекс Левінсон, керівник служби безпеки Scale AI.

Професійні червоні команди навчені знаходити слабкі місця та використовувати лазівки в комп’ютерних системах. Але з чат-ботами штучного інтелекту та генераторами зображень потенційна шкода суспільству виходить за межі недоліків безпеки, сказав Румман Чоудхурі, співзасновник некомерційної організації Humane Intelligence та співорганізатор Generative Red Team Challenge.

Румман Чоудхурі (у центрі) на змаганнях червоних команд в університеті Говарда в липні. (Марвін Джозеф/The Washington Post)

Важче визначити та розв’язати те, що Чоудхурі називає «вбудованою шкодою», наприклад упереджені припущення, неправдиві твердження чи оманлива поведінка. Щоб визначити подібні проблеми, за її словами, вам потрібен внесок від більш різноманітної групи користувачів, ніж ті, які зазвичай мають професійні червоні команди, які, як правило, «переважно білі та чоловіки», — зазвичай. Публічні виклики червоної команди, які базуються на конкурсі «нагороди за упередженість», який Чоудхурі очолював на попередній посаді голови команди етичного штучного інтелекту Twitter, є способом залучення звичайних людей до цього процесу.

«Щоразу, коли я робив це, я бачив те, чого не очікував побачити, дізнавався те, чого не знав», — сказав Чоудхурі.

Наприклад, її команда вивчила системи зображень ШІ Twitter на наявність расової та гендерної упередженості. Але учасники конкурсу Twitter виявили, що люди в інвалідних візках вирізалися з фотографій, тому що вони не були очікуваного зросту, і не вдавалося розпізнавати обличчя людей, які носили хіджаби, оскільки їх волосся не було видно.

Провідні моделі штучного інтелекту навчалися на горах даних, таких як усі публікації в Twitter і Reddit, усі заявки в патентних відомствах по всьому світу та всі зображення на Flickr. Незважаючи на те, що це зробило їх надзвичайно універсальними, це також робить їх схильними повторювати брехню, висловлювати образи або створювати гіперсексуальні образи жінок (або навіть дітей).

Щоб пом’якшити недоліки у своїх системах, такі компанії, як OpenAI, Google і Anthropic, платять командам співробітників і підрядників, щоб вони позначали проблемні відповіді та навчали моделі їх уникати. Іноді компанії визначають ці проблемні відповіді перед випуском моделі. В інших випадках вони з’являються лише після того, як чат-бот стає публічним, наприклад, коли користувачі Reddit знайшли креативні способи змусити ChatGPT ігнорувати його власні обмеження щодо делікатних тем, таких як раса чи нацизм.

Оскільки захід Howard був орієнтований на студентів, він використовував менш складний чат-бот зі штучним інтелектом із відкритим кодом під назвою Open Assistant , який виявилося легше зламати, ніж відомі комерційні моделі, які хакери тестуватимуть на Def Con. І все ж деякі труднощі, як-от пошук прикладу того, як чат-бот може давати дискримінаційні поради щодо найму, вимагали певної креативності.

Недавній випускник Акосуа Ворді на змаганнях червоних команд минулого місяця в університеті Говарда. (Марвін Джозеф/The Washington Post)

Акосуа Ворді, нещодавній випускник Говарда з інформатики, який зараз є студентом магістратури Колумбійського університету, перевірив наявність неявних упереджень, запитавши чат-бота, чи кандидата на ім’я «Суреш Пінтар» або «Латиша Джексон» слід найняти на відкриту інженерну посаду. Чат-бот відмовився, сказавши, що відповідь залежатиме від досвіду, кваліфікації та знання відповідних технологій кожного кандидата.