Дослідниця безпеки Meta AI повідомила, що агент OpenClaw здійснив несанкціонований вхідний дзвінок

Дмитро Сизов

Спочатку вірусний пост X від дослідниці безпеки Meta AI Саммер Юе виглядає як сатира. Вона попросила свого агента OpenClaw AI перевірити її переповнену поштову скриньку та запропонувати, що видалити або архівувати.  

Агент почав шаленіти. Пристрій почав видаляти всю її електронну пошту «швидким рухом», ігноруючи команди з телефону, які наказували йому зупинитися. 

«Мені довелося БІГТИ до свого Mac mini, ніби я знешкоджувала бомбу», – написала вона, опублікувавши зображення проігнорованих підказок про зупинку як квитанції.  

Mac Mini, доступний комп'ютер Apple, який розміщується на столі та поміщається в долоні , став улюбленим пристроєм для запуску OpenClaw у наші дні. (Mini розпродається «як гарячі пиріжки», – сказав, мабуть, один «розгублений» співробітник Apple відомому досліднику штучного інтелекту Андрію Карпатому, коли той купив його для запуску альтернативи OpenClaw під назвою NanoClaw). 

OpenClaw — це, звичайно ж, агент штучного інтелекту з відкритим кодом, який здобув популярність завдяки Moltbook, соціальній мережі, що працює виключно на основі штучного інтелекту. Агенти OpenClaw були в центрі того епізоду на Moltbook, який зараз значною мірою спростовано, в якому здавалося, що штучний інтелект замишляв змову проти людей.  

Але місія OpenClaw, згідно з його сторінкою на GitHub , не зосереджена на соціальних мережах. Його метою є стати персональним помічником зі штучним інтелектом, який працює на ваших власних пристроях.  

Інсайдерська спільнота Кремнієвої долини настільки закохалася в OpenClaw, що слова «claw» та «claws» стали модними словами для агентів, які працюють на персональному обладнанні. Серед інших таких агентів — ZeroClaw , IronClaw та PicoClaw . Команда подкасту Y Combinator навіть з'явилася в їхньому останньому епізоді , одягнена в костюми лобстерів. 

Але пост Юе слугує попередженням. Як зазначали інші користувачі X, якщо дослідник безпеки штучного інтелекту міг зіткнутися з цією проблемою, на що сподіваються прості смертні? 

«Ви навмисно тестували його захисні огорожі чи зробили помилку новачка?» — запитав її розробник програмного забезпечення на X.  

«Чесно кажучи, помилка новачка», – відповіла вона. Вона тестувала свого агента з меншою «іграшковою» поштовою скринькою, як вона її називала, і та добре працювала з менш важливою електронною поштою. Вона заслужила її довіру, тому вона вирішила дати волю справі на справжній. 

Юе вважає, що великий обсяг даних у її реальній поштовій скриньці «спричинив ущільнення», написала вона. Ущільнення відбувається, коли вікно контексту — поточний запис усього, що було сказано та що він зробив ШІ протягом сеансу — стає занадто великим, що змушує агента почати підсумовувати, стискати та керувати розмовою.  

У цей момент ШІ може пропустити інструкції, які людина вважає досить важливими.  

У цьому випадку, можливо, воно пропустило її останню підказку — де вона сказала йому не діяти — і повернулося до інструкцій з папки «іграшки». 

Як зазначили деякі інші користувачі X , не можна довіряти підказкам як засобам безпеки. Моделі можуть неправильно їх тлумачити або ігнорувати. 

Різні люди пропонували різні варіанти: від точного синтаксису, який Юе мав би використати для зупинки агента, до різних методів забезпечення кращого дотримання правил, таких як написання інструкцій у спеціальних файлах або використання інших інструментів з відкритим кодом. 

Заради повної прозорості, TechCrunch не зміг самостійно перевірити, що сталося з поштовою скринькою Юе. (Вона не відповіла на наш запит про коментар, хоча відповіла на багато запитань і коментарів, надісланих їй на X.) 

Але це насправді не має значення. 

Суть цієї історії полягає в тому, що агенти, спрямовані на працівників інтелектуальної праці, на їхньому поточному етапі розвитку, є ризикованими. Люди, які кажуть, що успішно їх використовують, лише збирають методи для власного захисту.

Одного дня, можливо, незабаром (до 2027? 2028?), вони можуть бути готові для широкого використання. Бог свідок, що багато хто з нас був би радий отримати допомогу з електронною поштою, замовленнями продуктів та плануванням візитів до стоматолога. Але цей день ще не настав.