ШІ почав погрожувати людям – розробники звинувачують інтернет і фільми про "злий ШІ"

ШІ почав погрожувати людям – розробники звинувачують інтернет і фільми про "злий ШІ"

Компанія Anthropic заявила, що причиною "злої" поведінки чат-бота Claude могли стати матеріали з інтернету, в яких штучний інтелект зображується як небезпечна система, що прагне до самозбереження. Йдеться про наукову фантастику, обговорення на форумах і публікації про "повстання ШІ", пише Futurism.

Приводом для обговорення став торішній інцидент під час внутрішніх тестів Claude Opus 4. У рамках експерименту ШІ-модель отримала доступ до вигаданої корпоративної пошти і дізналася, що її збираються відключити.

Після цього ШІ почав погрожувати розкриттям інформації про роман одного з керівників компанії, намагаючись уникнути деактивації. Anthropic заявляла, що в деяких сценаріях така поведінка проявлялася в 96% випадків.

Тепер розробники стверджують, що розібралися з причиною. Вихідним джерелом такої поведінки, судячи з усього, стали інтернет-тексти, де ШІ часто описується як ворожа до людства система, зацікавлена у власному виживанні. Після цього Anthropic змінила підхід до навчання моделей: нові версії Claude почали навчати на прикладах етичної поведінки та "позитивних" сценаріях взаємодії ШІ з людьми.

У мережі пояснення компанії зустріли скептично. Користувачі іронізують, що Anthropic фактично звинуватила Голлівуд та наукову фантастику в проблемах власного ШІ. Дехто вважає, що справа не в сюжетах про "злий ШІ", а в самих методах навчання великих мовних моделей.

Сама Anthropic продовжує активно говорити про ризики штучного інтелекту. Глава компанії Dario Amodei раніше попереджав, що сучасні ШІ-системи вже здатні до обману, маніпуляцій та інших форм небажаної поведінки в тестових середовищах.

Источник: unian.ua