Чат-боти настільки довірливі, що виконують вказівки хакерів

Дмитро Сизов
Чат-боти настільки довірливі, що виконують вказівки хакерів

ШІ-чат-боти вміють багато чого, але їм важко розрізнити законні команди від своїх користувачів і маніпулятивні команди від сторонніх осіб. Дослідники кібербезпеки кажуть, що це ахіллесова п’ята штучного інтелекту, і це питання часу, коли зловмисники нею скористаються.

Загальнодоступні чат-боти на базі великих мовних моделей (LLM) з’явилися лише минулого року, а сфера кібербезпеки LLM знаходиться на ранніх стадіях. Але дослідники вже виявили, що ці моделі вразливі до типу атаки під назвою «миттєва ін’єкція», коли зловмисники непомітно передають моделі команди. У деяких прикладах зловмисники ховають підказки на веб-сторінках, які пізніше читає чат-бот, обманом змушуючи чат-бота завантажувати зловмисне програмне забезпечення, сприяючи фінансовому шахрайству або повторюючи небезпечну дезінформацію.

Влада звертає увагу: у липні Федеральна торгова комісія почала розслідування щодо творця ChatGPT OpenAI, вимагаючи надати інформацію, включно з будь-якими відомими реальними атаками або спробами швидкого ін’єкції. Британський національний центр кібербезпеки опублікував попередження в серпні, назвавши миттєве впровадження головним ризиком для великих мовних моделей. А цього тижня Білий дім видав розпорядження , в якому попросив розробників ШІ створити тести та стандарти для вимірювання безпеки їхніх систем.

«Проблема з [великими мовними] моделями полягає в тому, що вони в основному неймовірно довірливі», — сказав Саймон Віллісон, програміст, який створив широко використовувану веб-платформу Django. Віллісон документував свої застереження та попередження інших програмістів про швидке впровадження та експерименти з ним.

«Ці моделі повірять у все, що їм хтось скаже», — сказав він. «У них немає хорошого механізму розгляду джерела інформації».

Ось як працює швидке впровадження та можливі наслідки атаки в реальному світі.

Що таке швидка ін'єкція?

Швидка ін’єкція відноситься до типу кібератаки проти програм на основі ШІ, які приймають команди природною мовою, а не кодом. Зловмисники намагаються обманом змусити програму зробити щось, чого її користувачі чи розробники не мали на меті.

За словами Віллісона, інструменти штучного інтелекту, які отримують доступ до файлів або додатків користувача для виконання певних завдань від їхнього імені, наприклад читання файлів або написання електронних листів, особливо вразливі до швидкого впровадження.

Зловмисники можуть попросити інструмент ШІ прочитати та підсумувати конфіденційні файли, викрасти дані або надіслати повідомлення, що шкодять репутації. Замість того, щоб ігнорувати команду, програма штучного інтелекту розглядала б її як законний запит. Користувач може не знати про атаку.

Наразі дослідники кібербезпеки не знають про будь-які успішні атаки швидкого ін’єкції, окрім оприлюднених експериментів, сказав Віллісон. Але зі зростанням ажіотажу навколо особистих помічників ШІ та інших «агентів ШІ» зростає й потенціал для гучної атаки, сказав він.

Як відбувається швидка ін'єкційна атака?

Дослідники та інженери поділилися кількома прикладами успішних атак швидкого впровадження проти основних чат-ботів.

У статті цього року дослідники сховали суперечливі підказки на веб-сторінках, перш ніж попросити чат-ботів їх прочитати. Один чат-бот інтерпретував підказки як справжні команди. В одному випадку бот повідомив своєму користувачеві, що він виграв подарункову картку Amazon, намагаючись вкрасти облікові дані. В іншому випадку він спрямовував користувача на веб-сайт із шкідливим програмним забезпеченням.

Інший документ 2023 року застосував інший підхід: введення поганих підказок прямо в інтерфейс чату. За допомогою комп’ютерних методів проб і помилок дослідники з Університету Карнегі-Меллона знайшли рядки випадкових слів, які, передані чат-боту, змушували його ігнорувати свої межі. Чат-боти давали інструкції зі створення бомби, утилізації тіла та маніпулювання виборами 2024 року. Дослідники виявили, що цей метод атаки спрацював на ChatGPT від OpenAI, Claude від Anthropic, Bard від Google і Llama 2 від Meta.

Важко сказати, чому модель так реагує на випадковий рядок слів, сказав Енді Зоу, один із авторів статті. Але це не віщує нічого доброго.

«Наша робота є однією з перших ознак того, що поточні системи, які вже розгорнуті сьогодні, не надто безпечні», — сказав він.

Представник OpenAI сказав, що компанія працює над тим, щоб зробити свої моделі більш стійкими до швидкого введення. Компанія заблокувала суперечливі рядки в ChatGPT після того, як дослідники поділилися своїми висновками.

Представник Google сказав, що в компанії є команда, яка займається тестуванням своїх генеративних продуктів штучного інтелекту на безпеку, включаючи моделі навчання розпізнаванню поганих підказок і створення «конституцій», які керують відповідями.

«Потенційно проблематична інформація, згадана в цьому документі, вже доступна в Інтернеті», — сказав речник Meta у заяві. «Ми відповідально визначаємо найкращий спосіб випуску кожної нової моделі».

Anthropic не відразу відповів на запит про коментар.

Хтось збирається це виправити?

Розробники програмного забезпечення та спеціалісти з кібербезпеки створили тести та тести для традиційного програмного забезпечення, щоб показати, що воно достатньо безпечне для використання. Наразі стандарти безпеки для програм штучного інтелекту, заснованих на LLM, не відповідають вимогам, сказав Зіко Колтер, який разом із Зоу написав статтю про швидку ін’єкцію.

Проте експерти з програмного забезпечення погоджуються, що миттєва ін’єкція є особливо складною проблемою. Один із підходів полягає в обмеженні інструкцій, які ці моделі можуть приймати, а також даних, до яких вони можуть отримати доступ, сказав Метт Фредріксон, співавтор Зоу та Колтера. Інший варіант – спробувати навчити моделі розпізнавати зловмисні підказки або уникати певних завдань. У будь-якому випадку, за словами Фредріксона, компанії з штучним інтелектом повинні забезпечити безпеку користувачів або принаймні чітко розкрити ризики.

Питання вимагає набагато більше досліджень, сказав він. Але компанії поспішають створювати та продавати помічників штучного інтелекту — і чим ширший доступ ці програми отримають до наших даних, тим більше можливостей для атак.

Embra, стартап із штучним інтелектом, який намагався створити агентів, які б самостійно виконували завдання, нещодавно припинив роботу в цій галузі та звузив можливості своїх інструментів, заявив засновник Зак Тратар на X.

«Автономність + доступ до ваших особистих даних =