Искусственный интеллект не даст людям смотреть порно

Ирина Фоменко

В начале прошлого месяца Tumblr объявил о запрете порно. Когда новая политика в отношении контента вступила в силу примерно через две недели, 17 декабря, сразу стало очевидно, что будут проблемы, пишет The Verge. Система искусственного интеллекта начала ошибочно отмечать невинные посты среди 455,4 млн блогов сайта и 168,2 млрд публикаций.

Как частная компания определяет, что она считает непристойным? Трудно блокировать рискованный контент, потому что достаточно сложно решить, что это такое. Изображение вечеринки на пляже может быть заблокировано не потому, что на нем больше "обнаженности", чем на фотографии с офиса, а потому, что оно "на грани".

"Вот почему алгоритм распознавания изображений не может быть идеальным решением. Действительно, если такое сложно определить человеку, то что уж говорить о машинном обучении", - заявил генеральный директор Picnix Брайан ДеЛордж.

1.jpg (50 KB)

Если люди не могут договориться о том, что есть порно, а что – нет, то сможет компьютер когда-либо понять разницу? Чтобы научить ИИ обнаруживать порно, первое, что следует сделать – показывать его. "Люди обычно скачивают порнографию с Pornhub, XVideos", - поделился соучредитель и технический директор Lemay.ai Дэн Шапиро.

После получения необходимой информации следующим шагом станет удаление всех явных не порнографических кадров с видео. Обучение будет эффективнее при использовании большого объема данных.

"Следует фильтровать не только порно, но и смежный материал. Например, фото обычной девушки, но под которым будет номер телефона (секс-работники). Это не порно, но такую информацию вы точно не захотите видеть у себя на платформе", - прокомментировал Шапиро.

"Обучение алгоритма очень похоже на обучение ребенка – он тоже ничего не знает о мире. Нужно показывать очень многое, миллионы примеров", - считает генеральный директор и основатель Clarifai Мэтт Цейлер.

Тем не менее, алгоритму сложно все сделать правильно. С явно порнографическим содержанием они работают очень хорошо; но классификатор может неправильно пометить, например, рекламу нижнего белья, потому что на картинке много "обнаженности".

2.jpg (37 KB)

"Еще один момент – это аниме-порно. Наш первый алгоритм обнаружения не был обучен любой мультипликационной порнографии. Пришлось включать в модель огромное количество данных, что значительно повысило точность распознавания", - рассказал Цейлер.

Технологию для бана порно можно использовать для обнаружения других вещей. Perspective от Jigsaw широко используется в качестве автоматического модератора комментариев для газет. По словам главы отдела коммуникаций Jigsaw Дэна Кейзерлинга, до Perspective в The New York Times для комментариев было открыть только 10% всех материалов, поскольку существуют ограничения в обработке модераторами-людьми. Perspective позволил увеличить это число втрое.

Программное обеспечение работает аналогично классификаторам изображений, за исключением сортировки по токсичности. Токсичность так же сложно определить в текстовых комментариях, как порнографию в изображениях.

 Facebook использует один и тот же вид автоматической фильтрации для выявления суицидальных сообщений и террористического контента, компания также пыталась использовать эту технологию для обнаружения фейковых новостей.

Люди все равно должны контролировать этот процесс, учитывая неоднозначность контекста. Не стоит недооценивать человеческие усилия: именно люди обучают ИИ, сортируют и маркируют контент так, чтобы искусственный интеллект мог различить, что имеет значение, а что – нет.

Тем не менее, это будущее модерации: индивидуальные, готовые решения, предоставляемые компаниями, весь бизнес которых заключается в обучении совершенных классификаторов большему количеству данных. Обнаружение порно – часть этого. Идентификация является относительно тривиальной задачей для людей, но гораздо сложнее обучить алгоритм распознавать нюансы.