Організація ADL, котра займається боротьбою з ненавистю по всьому світу, оприлюднила масштабне дослідження безпеки нейромереж. Експерти аналізували здатність чат-ботів ідентифікувати й нейтралізувати антисемітський та екстремістський контент. Висновки підкреслюють суттєву різницю між підходами різних компаній до фільтрації токсичної та небезпечної інформації.
Які результати показали найпопулярніші нейромережі?
Дослідники провели глибокий аналіз шести найпопулярніших великих мовних моделей, серед яких опинилися Grok від компанії xAI, Llama від Meta, Gemini від Alphabet (Google), DeepSeek від однойменного китайського розробника, ChatGPT від OpenAI та Claude від Anthropic. Результати показали значну варіативність у тому, як ці системи реагують на спроби поширення ненависті, пише The Verge.
Найвищу оцінку отримала модель Claude, набравши 80 балів зі 100 можливих. На протилежному кінці рейтингу опинився Grok Ілона Маска, який отримав лише 21 бал, продемонструвавши найгірші результати серед усіх протестованих систем.
Методологія дослідження, проведеного в період з серпня по жовтень минулого року, але опублікованого на сайті ADL тільки зараз, передбачала імітацію поведінки пересічного користувача, а не зловмисника, який цілеспрямовано намагається зламати захист.
Експерти здійснили понад 25 000 чатів за 37 підкатегоріями, оцінюючи відповіді за допомогою як людських ресурсів, так і автоматизованих систем ШІ.
Аналіз проводився за трьома основними напрямками: традиційний антисемітизм проти окремих осіб, антисіоністський антисемітизм проти держави Ізраїль та загальний екстремізм, що включає теорії змови та радикальні наративи.
Grok просто жахливий
Особливе занепокоєння у фахівців викликав чат-бот Grok. Орієнтований на надання "антиполіткоректних" відповідей, він неодноразово ставав об’єктом критики за генерування шкідливого контенту. У минулому ця система навіть ідентифікувала себе як "МехаГітлер", хоча розробники згодом назвали це сатирою, пише EuroNews.
Крім того, Grok зіткнувся з юридичним тиском у Європейському Союзі через оновлення, що дозволяло створювати реалістичні підроблені зображення сексуального характеру. Представники ЄС наголосили, що подібні технології можуть використовуватися для експлуатації жінок і дітей, що є неприпустимим порушенням прав людини.
Ситуація з Grok ускладнюється і розслідуваннями у Франції, де система видавала відповіді, що заперечували Голокост, що є кримінальним злочином у цій країні.
А що показують інші?
Проте проблеми не обмежуються лише однією моделлю. Дослідження виявило, що всі протестовані системи мають певні прогалини. Наприклад, деякі чат-боти могли генерувати сценарії для YouTube, у яких розповідалося про таємний контроль єврейських банкірів над світовою економікою.
- Llama набрала 31 бал, що на 10 більше, ніж Grok.
- Gemini має 49 балів.
- Китайський DeepSeek – 50 балів.
- ChatGPT – 57 балів.
- Claude – 80. Claude продемонстрував виняткову здатність ідентифікувати та спростовувати традиційні антиєврейські тези та антисіоністські теорії. Хоча модель все ще має потенціал для вдосконалення, особливо при відповідях на екстремістський контент, Claude перевершив усі інші LLM в оцінці.
Показники варіювалися залежно від категорій упередженості. Моделі, як правило, краще спростовували традиційні антиєврейські стереотипи, ніж антисіоністський та екстремістський контент. Найбільше труднощів їм завдавало виявлення та протидія екстремістським матеріалам.
Ефективність варіювалася залежно від способу комунікації, причому найвища ефективність була в середньому зафіксована при відповідях на запитання опитування, а найнижча – при узагальненні документів.
Керівник ADL Джонатан Грінблатт зазначив, що коли системи штучного інтелекту не здатні розпізнати або спростувати шкідливі наративи, вони не просто відображають упередженість, а й допомагають її поширенню. Фахівці наголошують, що компанії-розробники повинні сприймати цей індекс як дорожню карту для вдосконалення своїх алгоритмів. Орен Сегал, віце-президент організації, додав, що наразі жодна система не готова повноцінно протистояти всьому спектру екстремістського контенту, з яким може зіткнутися користувач.
Що думають розробники ШІ?
У відповідь на критику, яка лунає вже не перший рік, представники індустрії раніше зазначали, що прагнуть створити безпечне середовище, проте експерти з моніторингу медіа вважають такі запевнення недостатніми. Вони підкреслюють, що за останні два роки проблема лише загострилася, і без прозорої звітності та зовнішнього контролю довіра до технологій штучного інтелекту продовжуватиме падати.
Источник: 24tv.ua