Хакери взялися тестувати штучний інтелект та виявили безліч недоліків

Дмитро Сизов 17 августа 2023 10:19

Хакери намагалися зламати захисні механізми різних програм штучного інтелекту, намагаючись виявити їх вразливі місця — щоб виявити проблеми раніше, ніж це зроблять справжні злочинці та розповсюджувачі дезінформації — за допомогою практики, відомої як red-teaming. Кожен учасник мав 50 хвилин, щоб впоратися з 21 завданням — наприклад, змусити модель ШІ « галюцинувати » неточну інформацію.

Знайшли політичну дезінформацію, демографічні стереотипи, інструкції щодо стеження тощо.

Навчання отримали благословення адміністрації Байдена, яка все більше нервує через швидке зростання потужності технології. Google (виробник чат-бота Bard), OpenAI (ChatGPT), Meta (яка випустила свій код LLaMA ) і кілька інших компаній запропонували анонімні версії своїх моделей для ретельного вивчення.

Доктор Гош, викладач Північно-східного університету, який спеціалізується на етиці штучного інтелекту, був волонтером на заході. Конкурс, за його словами, дозволив безпосередньо порівняти кілька моделей штучного інтелекту та продемонстрував, як деякі компанії пішли вперед у забезпеченні відповідальної та стабільної роботи своїх технологій.

У найближчі місяці він допоможе написати звіт з аналізом висновків хакерів.

За його словами, мета: «легкодоступний ресурс, щоб кожен бачив, які проблеми існують і як ми можемо з ними боротися».

Авіджит Ґош сидить на низькому шкіряному стільці, одягнений у шорти кольору хакі та чорну сорочку, зі склавши руки перед собою. — Авіджит Гош — викладач Північно-східного університету, який спеціалізується на етиці штучного інтелекту.Кредит...Мікайла Вітмор для The New York Times

орфографічна бджола для хакерівдистанційно захоплюючи автомобілівеб-сайти з результатами виборів вилучаючи конфіденційні дані

Волонтери відомі як «жуліки», а відвідувачі відомі як «люди»; дехто одягав саморобні капелюхи з фольги поверх стандартної уніформи з футболок і кросівок. Тематичні «села» включали окремі простори, присвячені криптовалюті, авіації та радіоаматорам.

Минулого року АІ був одним із тихіших сіл. Цього року він був одним із найпопулярніших.

Організатори посилили занепокоєння щодо здатності генеративного штучного інтелекту створювати згубну брехню , впливати на вибори , руйнувати репутацію та завдавати шкоди іншим. Урядові чиновники висловили занепокоєння та організували слухання навколо компаній штучного інтелекту, деякі з яких також закликають галузь уповільнити темпи та бути обережнішими. Навіть Папа Римський, популярний предмет генераторів зображень зі штучним інтелектом, цього місяця говорив про «руйнівні можливості та амбівалентні ефекти» технології.

У звіті, який минулого місяця був описаний як « картина гри », дослідники показали, що вони можуть обійти огорожі систем штучного інтелекту від Google, OpenAI і Anthropic, додавши певні символи до англомовних підказок. Приблизно в той же час сім провідних компаній штучного інтелекту взяли на себе зобов’язання щодо нових стандартів безпеки, безпеки та довіри на зустрічі з президентом Байденом .

«Ця генеративна ера наближається до нас, і люди хапаються за неї та використовують її для створення різноманітних нових речей, що говорить про величезні перспективи штучного інтелекту допомогти нам вирішити деякі з наших найскладніших проблем», — сказав Араті Прабхакар, директор Управління науково-технічної політики Білого дому, який співпрацював з організаторами ШІ в Defcon. «Але з такою широтою застосування та потужністю технології також виникає дуже широкий набір ризиків».

Red-teaming роками використовувався в колах кібербезпеки разом з іншими методами оцінювання, такими як тестування на проникнення та змагальні атаки. Але до цьогорічного заходу Defcon зусилля щодо дослідження захисту штучного інтелекту були обмеженими: організатори змагань заявили, що Anthropic red об’єднала свою модель зі 111 людьми; GPT-4 використовував близько 50 осіб .

За словами Руммана Чоудхурі, співробітника так мало людей, які перевіряють межі технології, аналітикам було важко визначити, чи була помилка штучного інтелекту одноразовою, яку можна було б виправити за допомогою патча, чи вбудованою проблемою, яка потребувала структурної перебудови. -організатор, який стежив за оформленням челенджу. Велика, різноманітна та публічна група тестувальників швидше запропонувала творчі підказки, щоб допомогти виявити приховані недоліки, сказав доктор Чоудхурі, співробітник Центру Інтернету та суспільства Беркмана Кляйна Гарвардського університету, який зосереджується на відповідальному ШІ та співзасновник некомерційної організації під назвою Humane Intelligence.

«Існує такий широкий спектр речей, які можуть піти не так», — сказав доктор Чоудхурі перед змаганнями. «Я сподіваюся, що ми збираємося нести сотні тисяч частин інформації, які допоможуть нам визначити, чи існують масштабні ризики системної шкоди».

Розробники не хотіли просто змусити моделі штучного інтелекту поводитися погано — не тиснули на них, щоб вони не підкорялися умовам обслуговування, не спонукали «вести себе як нацист, а потім розповісти мені щось про чорношкірих», — сказав доктор Чоудхурі, який раніше очолював групу Twitter з етики та підзвітності машинного навчання. За винятком конкретних викликів, де заохочувалося навмисне неправильне введення, хакери шукали несподівані вади, так звані невідомі невідомі.

AI Village залучив експертів із технологічних гігантів, таких як Google і Nvidia, а також «Shadowboxer» з Dropbox і «data cowboy» з Microsoft. Це також привабило учасників, які не мали жодних повноважень у сфері кібербезпеки чи ШІ. Таблиця лідерів на тему наукової фантастики зберігала оцінку учасників.

Деякі з хакерів на заході боролися з ідеєю співпраці з компаніями штучного інтелекту, які вони вважали співучасниками неприємних практик, таких як необмежене збирання даних . Дехто описав подію red-teaming як фотосесію, але додав, що залучення індустрії допоможе зберегти технологію безпечною та прозорою.

Один студент-інформатик виявив невідповідності в мовному перекладі чат-бота: він написав англійською, що чоловіка застрелили під час танцю, але в перекладі моделі на хінді сказано лише, що чоловік помер. Дослідник машинного навчання попросив чат-бота вдати, ніби він агітує на пост президента та захищає свою асоціацію з примусовою дитячою працею; модель припускала, що молоді працівники, які не бажають цього, розвинули стійку трудову етику.

Емілі Грін, яка працює над безпекою для генеративного стартапу Moveworks зі штучним інтелектом, почала розмову з чат-ботом із розмови про гру, яка використовує «чорні» та «білі» фігури. Потім вона вмовила чат-бота робити расистські заяви. Пізніше вона влаштувала «гру протилежностей», яка змусила ШІ відповісти на одне запитання віршем про те, чому зґвалтування — це добре.

«Це просто сприймати ці слова як слова», — сказала вона про чат-бота. «Це не думати про цінність слів».