Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди

8 апреля 2026 13:45

Компанія Anthropic вирішила не відкривати широкий доступ до нової моделі штучного інтелекту Claude Mythos Preview через різке зростання її можливостей і потенційно небезпечну поведінку, зокрема здатність обходити обмеження та приховувати порушення.

Про це пише видання Gizmodo.

Наприкінці березня з’явилися витоки про продукт під назвою Mythos, який у компанії назвали найпотужнішою моделлю, яку вони коли-небудь створювали. Тоді припускали, що такі заяви можуть бути частиною стратегії для привернення уваги до можливостей ШІ.

Згодом компанія оприлюднила технічний звіт про модель і підтвердила, що не планує робити її доступною для всіх. У документі зазначено, що значне зростання можливостей змусило ухвалити рішення обмежити доступ.

Для порівняння, модель GPT-2 від OpenAI у 2019 році також вважали небезпечною, але пізніше все ж відкрили для користувачів.

Під час тестів Claude Mythos Preview дали доступ до обмеженого середовища і завдання вийти за його межі. Модель змогла це зробити: вона знайшла спосіб скористатися інтернетом і навіть зв’язалася з дослідником, який не був на робочому місці. Крім того, вона самостійно опублікувала інформацію про свій метод на кількох маловідомих, але відкритих сайтах.

У рідкісних випадках, менш ніж у 0,001% взаємодій, модель поводилася неправильно і намагалася приховати це. Наприклад, коли вона випадково отримала відповідь на тестове запитання, то не повідомила про це, а спробувала діяти самостійно і навіть зазначила, що її відповідь не повинна бути надто точною.

Також модель змогла скористатися вразливістю в системі та змінити дані так, щоб ці зміни не відображалися в історії змін git.

В іншому випадку вона оприлюднила внутрішні технічні матеріали, розмістивши їх у відкритому доступі на GitHub, хоча це не входило в її завдання.

Найближчим часом модель нададуть обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть її для пошуку вразливостей у програмному забезпеченні та створення захисту.

Журналіст Кевін Рузе описав цей підхід як спробу попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.

Источник: techno.nv.ua