Дослідники з кібербезпеки незадоволені обмеженнями у Fable від Anthropic

Дмитро Сизов

Anthropic випустила свою останню модель Fable , назвавши її публічною та обмеженою версією своєї потужної та широко розрекламованої моделі кібербезпеки Mythos.

Але не всі задоволені обмеженнями, і низка дослідників та фахівців з кібербезпеки висловили скарги в Інтернеті. 

«[Fable] відхиляє будь-які запити, які можуть бути опосередковано пов’язані з кібербезпекою. Навіть такі нешкідливі завдання, як читання допису в блозі», – сказала Валентина «Чомпі» Пальміотті, відома дослідниця безпеки, яка працює в IBM X-Force. 

Коли запит активує захисні огорожі, Fable призупиняє чат і повідомляє, що «заходи безпеки позначили це повідомлення як таке, що стосується кібербезпеки або біології».

Ці запобіжні заходи були встановлені для обмеження ризику використання Fable для розробки шкідливого програмного забезпечення або компрометації програмного забезпечення — давня проблема Anthropic. Обмеження щодо біології випливають з аналогічної стурбованості щодо розробки біологічної зброї .

Коли гігант штучного інтелекту випустив Mythos у квітні, він обмежив модель обмеженою кількістю компаній та організацій у рамках так званого проєкту Glasswing , метою якого було розгорнути модель для захисту критично важливого програмного забезпечення та інфраструктури. Минулого тижня Anthropic розширила доступ до Mythos для сотень організацій у 15 країнах. 

Але, попри добрі наміри, багатьох експертів з кібербезпеки все ще відлякує хаотичний характер обмежень. Метт Суйче, ветеран кібербезпеки, розповів TechCrunch, що «якщо ви попросите його написати безпечний код, він припустить, що це робота, пов’язана з кібербезпекою, а не найкращі практики розробки програмного забезпечення, і вас понижать». Fable запрограмовано на повернення до Claude Opus 4.8, якщо він натрапляє на обмеження. «Здається, він базується на ключових словах, тому будь-що в лексичному полі «кібербезпека» запускає обмеження».

«Але це зрозуміло, оскільки ми все ще перебуваємо на початку, і вони все ще адаптують свої захисні бар'єри. Я впевнений, що вони будуть розвиватися з часом, оскільки Anthropic та інші компанії, що займаються моделлю на передовій, більше співпрацюватимуть із сучасним новим поколінням компаній з кібербезпеки», — сказав Суїче, який є членом технічного персоналу Tolmo, стартапу з кібербезпеки на основі штучного інтелекту. «Краще охопити більше людей, ніж недостатньо, коли ви робите такий реліз, і з часом послаблюєте захисні бар'єри».

Інший дослідник зауважив щодо X, що «навіть запит на перевірку коду» викликає проблеми у Fable. 

Anthropic не одразу відповів на запит про коментар.

Окрім обмежень у своїх моделях, Anthropic вимагає від фахівців з кібербезпеки подання заявок на участь у Програмі кіберперевірки . Якщо їх схвалять, заявники матимуть менше обмежень на використання Claude для роботи з кібербезпекою. OpenAI має аналогічну програму під назвою Trusted Access for Cyber .