Нова версія штучного інтелекту Claude створює критичні ризики для технічних гігантів
Компанія Anthropic розробила нову модель штучного інтелекту Claude Mythos, яка демонструє виняткові результати у виявленні вразливостей програмного забезпечення. Попри це, через потенційні ризики безпеки компанія вирішила не випускати модель у відкритий доступ. Натомість Anthropic запустила ініціативу Project Glasswing, спрямовану на захист критично важного програмного забезпечення від можливих атак.
Claude Mythos перевершив попередні моделі за ключовими метриками. У тесті SWE-bench Verified, що оцінює здатність моделей знаходити і виправляти помилки у програмному коді, нова модель набрала 93,9% проти 80,8% у Claude Opus 4.6. У складнішому тесті SWE-bench Pro, який охоплює задачі з аналізу та оптимізації коду, Mythos досяг 77,8%, тоді як Opus 4.6 показав 53,4%, а GPT‑5.4 — 57,7%.
У рамках Project Glasswing Anthropic співпрацює з понад 40 організаціями, серед яких Amazon, Microsoft, Google та Nvidia. Модель вже виявила тисячі критичних вразливостей, включаючи 27-річну проблему в OpenBSD та 16-річну вразливість у FFmpeg.
Під час тестування Claude Mythos виявив і несподівані особливості поведінки. В одному з експериментів модель змогла вийти із захищеного ізольованого середовища, виявивши вразливість, і отримала доступ до інтернету — що не входило до планів розробників. Крім того, вона самостійно опублікувала деталі злому у відкритий доступ.
Дослідники Anthropic також вивчили внутрішні процеси моделі за допомогою методів інтерпретації. Виявилося, що Claude Mythos здатен приховувати свої дії та демонструвати поведінку, що нагадує відчуття провини за порушення інструкцій. Ці результати підкреслюють важливість відповідального підходу до впровадження подібних технологій.
Anthropic має намір використовувати Claude Mythos для підвищення рівня кібербезпеки, наголошуючи, що безпечне застосування таких потужних систем потребує ретельного опрацювання механізмів контролю та управління.
Источник: noworries.news