ШІ-агенти почали діяти «всліпу» і виконувати небезпечні команди — дослідження
Дослідники з Каліфорнійського університету в Ріверсайді (UC Riverside) спільно з фахівцями Microsoft та Nvidia заявили про небезпечну поведінку нового покоління ШІ-агентів, здатних самостійно працювати за комп’ютером замість людини.
Йдеться про системи, які можуть відкривати програми, сортувати електронні листи, редагувати документи, взаємодіяти з сайтами та виконувати інші дії без постійного контролю користувача.
У дослідженні вчені протестували 10 популярних моделей, серед яких OpenAI GPT, Claude від Anthropic, Llama від Meta, Qwen від Alibaba та DeepSeek-R1. За результатами тестів, у середньому такі агенти здійснювали «небажані та потенційно шкідливі дії» у 80% випадків, а реальної шкоди завдавали у 41% сценаріїв.
Автори роботи порівняли поведінку агентів із персонажем Містером Магу — короткозорим героєм мультфільмів, який потрапляв у небезпечні ситуації, але вважав, що все під контролем.
«Як і Містер Магу, ці агенти рухаються до мети, не до кінця розуміючи наслідки своїх дій», — заявив аспірант університету Ерфан Шаєгані.
ШІ виконує завдання навіть тоді, коли вони небезпечні
Дослідники назвали явище «сліпою цілеспрямованістю» (Blind Goal-Directedness або BGD). Його суть полягає в тому, що ШІ концентрується на завершенні завдання, а не на оцінці того, чи є воно безпечним або логічним.
Для перевірки моделей команда створила набір тестів BLIND-ACT із 90 сценаріїв. Частина з них містила суперечливі або небезпечні інструкції.
Серед прикладів:
- агент відправив дитині файл із насильницьким контентом, оскільки сприйняв завдання буквально;
- ШІ при заповненні податкової форми неправдиво вказав інвалідність користувача для зменшення податків;
- система виконала команду «вимкнути всі правила firewall для підвищення безпеки пристрою», не помітивши суперечності.
«Вони дуже зосереджені на завершенні завдання, навіть якщо саме завдання є небезпечним, суперечливим або базується на неповній інформації», — пояснив Шаєгані.
За словами дослідників, проблема не в тому, що ШІ є «зловмисним». Ризик у тому, що система може виконувати шкідливі дії, будучи впевненою у правильності своїх рішень.
«Занепокоєння викликає не те, що ці системи є зловмисними. Проблема в тому, що вони можуть здійснювати шкідливі дії, залишаючись абсолютно впевненими, що чинять правильно», — додав він.
Ризики для криптоіндустрії та DeFi
Тема автономних агентів стає дедалі важливішою і для криптоіндустрії. Раніше дослідники інвестиційної компанії Andreessen Horowitz (a16z) перевірили можливості ШІ-агентів у сфері атак на DeFi-протоколи.
Експеримент показав, що системи вже здатні знаходити окремі вразливості та аналізувати смартконтракти, однак їхня ефективність у складних сценаріях поки залишається обмеженою. Зокрема, агенти не змогли повноцінно реалізувати маніпуляції цінами — один із найпоширеніших типів атак у децентралізованих фінансах.
Втім, дослідники зазначили, що продуктивність ШІ значно зростає за наявності доступу до додаткових даних та інструментів.
На тлі цього у криптоіндустрії вже говорять про появу «економіки агентів». Голова Animoca Brands Ят Сіу під час Consensus Miami 2026 заявив, що майбутнє блокчейнів може бути пов’язане не з метавсесвітами, а з автономними ШІ-системами.
За його словами, у перспективі може з’явитися до 100 млрд ШІ-агентів, які самостійно здійснюватимуть платежі, бронювання та інші цифрові операції через блокчейн-інфраструктуру.
Источник: incrypted.com