Через ризики. Anthropic не випустить нову модель ШІ, яка може обманювати та приховувати сліди
Компанія Anthropic вирішила не відкривати широкий доступ до нової моделі штучного інтелекту Claude Mythos Preview через різке зростання її можливостей і потенційно небезпечну поведінку, зокрема здатність обходити обмеження та приховувати порушення.
Про це пише видання Gizmodo.
Наприкінці березня з’явилися витоки про продукт під назвою Mythos, який у компанії назвали найпотужнішою моделлю, яку вони коли-небудь створювали. Тоді припускали, що такі заяви можуть бути частиною стратегії для привернення уваги до можливостей ШІ.
Згодом компанія оприлюднила технічний звіт про модель і підтвердила, що не планує робити її доступною для всіх. У документі зазначено, що значне зростання можливостей змусило ухвалити рішення обмежити доступ.
Для порівняння, модель GPT-2 від OpenAI у 2019 році також вважали небезпечною, але пізніше все ж відкрили для користувачів.
Під час тестів Claude Mythos Preview дали доступ до обмеженого середовища і завдання вийти за його межі. Модель змогла це зробити: вона знайшла спосіб скористатися інтернетом і навіть зв’язалася з дослідником, який не був на робочому місці. Крім того, вона самостійно опублікувала інформацію про свій метод на кількох маловідомих, але відкритих сайтах.
У рідкісних випадках, менш ніж у 0,001% взаємодій, модель поводилася неправильно і намагалася приховати це. Наприклад, коли вона випадково отримала відповідь на тестове запитання, то не повідомила про це, а спробувала діяти самостійно і навіть зазначила, що її відповідь не повинна бути надто точною.
Також модель змогла скористатися вразливістю в системі та змінити дані так, щоб ці зміни не відображалися в історії змін git.
В іншому випадку вона оприлюднила внутрішні технічні матеріали, розмістивши їх у відкритому доступі на GitHub, хоча це не входило в її завдання.
Найближчим часом модель нададуть обмеженому колу партнерів, серед яких Amazon Web Services, Apple, Google, JPMorgan Chase, Microsoft та NVIDIA. Вони використовуватимуть її для пошуку вразливостей у програмному забезпеченні та створення захисту.
Журналіст Кевін Рузе описав цей підхід як спробу попередити про нову, більш небезпечну епоху загроз, пов’язаних зі штучним інтелектом.
Источник: techno.nv.ua