Інсайдерська команда Facebook створює модерацію контенту для ери штучного інтелекту

Дмитро Сизов

Коли Бретт Левенсон залишив Apple у 2019 році, щоб очолити відділ ділової доброчесності у Facebook, гігант соціальних мереж був у центрі уваги через скандал з Cambridge Analytica . У той час він думав, що зможе просто вирішити проблему модерації контенту у Facebook за допомогою кращих технологій. 

Він швидко зрозумів, що проблема полягає глибше, ніж просто технології. За його словами, від людей-рецензентів очікувалося запам’ятати 40-сторінковий документ з політикою, який був машинно перекладений їхньою мовою. Потім у них було близько 30 секунд на кожен позначений контент, щоб вирішити не лише, чи порушує цей контент правила, але й що з ним робити: заблокувати його, забанити користувача, обмежити поширення. За словами Левенсона, ці швидкі рішення були лише «трохи кращими за 50% точними».

«Це було схоже на підкидання монети, чи зможуть люди-рецензенти насправді правильно розглянути політики, і це сталося через багато днів після того, як шкода вже була завдана», – сказав Левенсон TechCrunch.

Такий затримний, реактивний підхід не є сталим у світі гнучких та добре фінансованих супротивників. Зростання популярності чат-ботів на основі штучного інтелекту лише посилило проблему, оскільки збої в модерації контенту призвели до низки гучних інцидентів, таких як надання чат-ботами порад щодо самоушкодження підліткам або зображення, створені штучним інтелектом, що обходять фільтри безпеки.

Розчарування Левенсона призвело до ідеї «політики як коду» — способу перетворити статичні документи політики на виконувану, оновлювану логіку, тісно пов’язану з правозастосуванням. Це розуміння призвело до заснування Moonbounce , яка в п’ятницю оголосила про залучення 12 мільйонів доларів фінансування, як ексклюзивно дізнався TechCrunch. Раунд фінансування спільно очолили Amplify Partners та StepStone Group.

Moonbounce співпрацює з компаніями, щоб забезпечити додатковий рівень безпеки скрізь, де створюється контент, незалежно від того, чи користувачем, чи штучним інтелектом. Компанія навчила власну велику мовну модель переглядати документи політики клієнта, оцінювати контент під час виконання, надавати відповідь протягом 300 мілісекунд або менше та вживати заходів. Залежно від уподобань клієнта, ця дія може виглядати як уповільнення розповсюдження системою Moonbounce, поки контент очікує на перевірку людиною пізніше, або ж блокування контенту з високим рівнем ризику на даний момент. 

Сьогодні Moonbounce обслуговує три основні вертикалі: платформи, що працюють із контентом, створеним користувачами, таким як додатки для знайомств; компанії зі штучним інтелектом, що створюють персонажів або компаньйонів; та генератори зображень на основі штучного інтелекту. 

За словами Левенсона, Moonbounce підтримує понад 40 мільйонів щоденних оглядів та обслуговує понад 100 мільйонів активних користувачів платформи щодня. Серед клієнтів – стартап-компаньйон ШІ Channel AI, компанія з генерації зображень та відео Civitai, а також платформи для рольових ігор персонажів Dippy AI та Moescape. 

«Безпека насправді може бути перевагою продукту», – сказав Левенсон TechCrunch. «Просто ніколи раніше так не було, бо це завжди те, що відбувається пізніше, а не те, що ви можете насправді вбудувати у свій продукт. І ми бачимо, що наші клієнти знаходять справді цікаві та інноваційні способи використання наших технологій, щоб зробити безпеку відмінною рисою та частиною історії їхнього продукту».

Керівник відділу довіри та безпеки Tinder нещодавно пояснив, як платформа для знайомств використовує ці типи сервісів на базі LLM, щоб досягти 10-кратного покращення точності виявлення.

«Модерація контенту завжди була проблемою, яка переслідувала великі онлайн-платформи, але тепер, коли LLM лежить в основі кожної програми, ця проблема стала ще складнішою», – заявив Ленні Прусс, генеральний партнер Amplify Partners. «Ми інвестували в Moonbounce, тому що уявляємо собі світ, де об’єктивні бар’єри в режимі реального часу стають основою кожної програми, опосередкованої штучним інтелектом».

Компанії, що займаються штучним інтелектом, стикаються зі зростаючим юридичним та репутаційним тиском після того, як чат-ботів звинуватили у підштовхуванні підлітків та вразливих користувачів до самогубства , а генератори зображень, такі як Grok від xAI, використовувалися для створення недобросовісних знімків оголеної дівчини. Очевидно, що внутрішні захисні бар'єри не працюють, і це стає питанням відповідальності. Левенсон сказав, що компанії, що займаються штучним інтелектом, все частіше шукають допомоги у зміцненні інфраструктури безпеки за межами власних стін. 

«Ми є третьою стороною, яка знаходиться між користувачем і чат-ботом, тому наша система не перевантажена контекстом, як це відбувається з самим чатом», — сказав Левенсон. «Сам чат-бот повинен пам’ятати, можливо, десятки тисяч токенів, які були раніше… Ми стурбовані виключно забезпеченням дотримання правил під час виконання».

Левенсон керує компанією з 12 осіб разом зі своїм колишнім колегою з Apple Ешем Бхардваджем, який раніше створив масштабну хмарну та штучний інтелект інфраструктуру для основних пропозицій виробника iPhone. Їхній наступний фокус — це можливість під назвою «ітеративне керування», розроблена у відповідь на такі випадки, як самогубство 14-річного хлопчика з Флориди у 2024 році , який став одержимим чат-ботом Character AI. Замість прямої відмови, коли виникають шкідливі теми, система перехоплюватиме розмову та перенаправлятиме її, змінюючи підказки в режимі реального часу, щоб підштовхнути чат-бота до більш активної підтримуючої реакції.

«Ми сподіваємося додати до нашого інструментарію дій можливість спрямувати чат-бота в кращому напрямку, щоб, по суті, прийняти підказку користувача та змінити її, щоб змусити чат-бота бути не просто емпатичним слухачем, а корисним слухачем у таких ситуаціях», – сказав Левенсон. 

На запитання, чи передбачає його стратегія виходу придбання такою компанією, як Meta, що завершить цикл його роботи з модерації контенту, Левенсон відповів, що розуміє, наскільки добре Moonbounce впишеться в стек його колишнього роботодавця, а також у його власні фідуціарні обов'язки як генерального директора. 

«Мої інвестори вбили б мене за такі слова, але я б не хотів бачити, як хтось купує нас, а потім обмежує технологію», – сказав він. «На кшталт: «Гаразд, тепер це наше, і ніхто більше не може отримати від цього користь»».