Чат-боти настільки довірливі, що виконують вказівки хакерів

Загальнодоступні чат-боти на базі великих мовних моделей (LLM) з’явилися лише минулого року, а сфера кібербезпеки LLM знаходиться на ранніх стадіях. Але дослідники вже виявили, що ці моделі вразливі до типу атаки під назвою «миттєва ін’єкція», коли зловмисники непомітно передають моделі команди. У деяких прикладах зловмисники ховають підказки на веб-сторінках, які пізніше читає чат-бот, обманом змушуючи чат-бота завантажувати зловмисне програмне забезпечення, сприяючи фінансовому шахрайству або повторюючи небезпечну дезінформацію.

Влада звертає увагу: у липні Федеральна торгова комісія почала розслідування щодо творця ChatGPT OpenAI, вимагаючи надати інформацію, включно з будь-якими відомими реальними атаками або спробами швидкого ін’єкції. Британський національний центр кібербезпеки опублікував попередження в серпні, назвавши миттєве впровадження головним ризиком для великих мовних моделей. А цього тижня Білий дім видав розпорядження , в якому попросив розробників ШІ створити тести та стандарти для вимірювання безпеки їхніх систем.

«Проблема з [великими мовними] моделями полягає в тому, що вони в основному неймовірно довірливі», — сказав Саймон Віллісон, програміст, який створив широко використовувану веб-платформу Django. Віллісон документував свої застереження та попередження інших програмістів про швидке впровадження та експерименти з ним.

«Ці моделі повірять у все, що їм хтось скаже», — сказав він. «У них немає хорошого механізму розгляду джерела інформації».

Ось як працює швидке впровадження та можливі наслідки атаки в реальному світі.

Що таке швидка ін'єкція?

Швидка ін’єкція відноситься до типу кібератаки проти програм на основі ШІ, які приймають команди природною мовою, а не кодом. Зловмисники намагаються обманом змусити програму зробити щось, чого її користувачі чи розробники не мали на меті.

За словами Віллісона, інструменти штучного інтелекту, які отримують доступ до файлів або додатків користувача для виконання певних завдань від їхнього імені, наприклад читання файлів або написання електронних листів, особливо вразливі до швидкого впровадження.

Зловмисники можуть попросити інструмент ШІ прочитати та підсумувати конфіденційні файли, викрасти дані або надіслати повідомлення, що шкодять репутації. Замість того, щоб ігнорувати команду, програма штучного інтелекту розглядала б її як законний запит. Користувач може не знати про атаку.

Наразі дослідники кібербезпеки не знають про будь-які успішні атаки швидкого ін’єкції, окрім оприлюднених експериментів, сказав Віллісон. Але зі зростанням ажіотажу навколо особистих помічників ШІ та інших «агентів ШІ» зростає й потенціал для гучної атаки, сказав він.

Як відбувається швидка ін'єкційна атака?

Дослідники та інженери поділилися кількома прикладами успішних атак швидкого впровадження проти основних чат-ботів.

У статті цього року дослідники сховали суперечливі підказки на веб-сторінках, перш ніж попросити чат-ботів їх прочитати. Один чат-бот інтерпретував підказки як справжні команди. В одному випадку бот повідомив своєму користувачеві, що він виграв подарункову картку Amazon, намагаючись вкрасти облікові дані. В іншому випадку він спрямовував користувача на веб-сайт із шкідливим програмним забезпеченням.

Інший документ 2023 року застосував інший підхід: введення поганих підказок прямо в інтерфейс чату. За допомогою комп’ютерних методів проб і помилок дослідники з Університету Карнегі-Меллона знайшли рядки випадкових слів, які, передані чат-боту, змушували його ігнорувати свої межі. Чат-боти давали інструкції зі створення бомби, утилізації тіла та маніпулювання виборами 2024 року. Дослідники виявили, що цей метод атаки спрацював на ChatGPT від OpenAI, Claude від Anthropic, Bard від Google і Llama 2 від Meta.