Facebook обучит искусственный интеллект распознавать общедоступные видео пользователей

Романов Роман
Facebook обучит искусственный интеллект распознавать общедоступные видео пользователей

ИИ, который может понимать видео, может найти множество применений.

Научить системы искусственного интеллекта понимать, что происходит в видео, настолько полно, насколько это возможно для человека, - это одна из самых сложных задач - и самый большой потенциальный прорыв - в мире машинного обучения. Facebook объявил о новой инициативе, которая, возможно даст компании преимущество в сфере искусственного интеллекта: обучение своего ИИ на общедоступных видео пользователей Facebook.

Доступ к обучающим данным - одно из самых больших конкурентных преимуществ ИИ, собирая этот ресурс от миллионов своих пользователей, технологические гиганты, такие как Facebook, Google и Amazon, смогли продвинуться вперед в различных областях. Хотя Facebook уже обучил модели машинного зрения на миллиардах изображений, собранных в Instagram, ранее он не объявлял о проектах с аналогичными амбициями в области понимания видео.

«Изучая глобальные потоки общедоступных видео, охватывающих почти все страны и сотни языков, наши системы искусственного интеллекта не только улучшат точность, но и адаптируются к нашему быстро меняющемуся миру, распознают нюансы и визуальные подсказки в разных культурах и регионах», - написала компания в своем блоге. Проект под названием Learning from Videos также является частью «более широких усилий Facebook по созданию машин, которые обучаются, как люди».

По словам Facebook, полученные модели машинного обучения будут использоваться для создания новых систем рекомендаций по контенту и инструментов модерации, но в будущем они смогут сделать гораздо больше. Искусственный интеллект, который может понимать содержание видео, может дать Facebook беспрецедентное представление о жизни пользователей, позволяя им анализировать свои увлечения и интересы, предпочтения в отношении брендов и одежды, а также множество других личных данных. Конечно, Facebook уже имеет доступ к такой информации через свою текущую операцию таргетинга рекламы, но возможность синтаксического анализа видео с помощью ИИ добавила бы невероятно богатый (и агрессивный) источник данных в его хранилища.

Facebook расплывчато говорит о своих планах на будущее в отношении моделей ИИ, обученных на видео пользователей. Компания сообщила, что такие модели можно использовать для различных целей, от создания субтитров для видео до создания функций расширенного поиска, но не ответила на вопрос, будут ли они использоваться в сборе информации для таргетинга рекламы. Аналогичным образом, на вопрос о том, должны ли будут пользователи давать согласие на использование их видео для обучения искусственного интеллекта Facebook или они могут отказаться от этого, компания сослалась на свою Политику данных, где говорится, что загруженный пользовательский контент может использоваться для «исследования и разработки продукта». Facebook также проигнорировал вопросы о том, сколько видео будет собрано для обучения его систем искусственного интеллекта или как будет контролироваться доступ к этим данным исследователей компании.

Однако в своем сообщении в блоге, анонсирующем проект, социальная сеть указала на одно будущее, спекулятивное использование: использование ИИ для извлечения «цифровых воспоминаний», захваченных умными очками.

В этом году Facebook планирует выпустить пару потребительских умных очков. Подробности об устройстве расплывчаты, но вполне вероятно, что прототип очков будет включать в себя встроенные камеры, чтобы запечатлеть то, что видит владелец. Если системы искусственного интеллекта могут быть обучены понимать содержание видео, это позволит пользователям искать прошлые записи, так же как многие приложения для фотографий позволяют людям искать определенные места, объекты или людей. (Кстати, это информация, которая часто индексируется системами ИИ, обученными на пользовательских данных.)

Поскольку запись видео с помощью умных очков «становится нормой», - заявляет Facebook, - «люди должны иметь возможность вспоминать определенные моменты из своего огромного банка цифровых данных так же легко, как они их запечатлевают». Приведен пример пользователя, выполняющего поиск по фразе «Покажи мне каждый раз, когда мы пели поздравления с днем рождения бабушке», прежде чем ему были показаны соответствующие клипы. Как отмечает компания, такой поиск потребует, чтобы системы искусственного интеллекта устанавливали связи между типами данных, обучая их сопоставлять фразу «с днем рождения» с тортами, свечами, людьми, поющими различные песни о днях рождения, и т. д.. Как и люди, ИИ должен понимать сложные концепции, состоящие из различных типов сенсорной информации.

Заглядывая в будущее, можно сказать, что сочетание умных очков и машинного обучения даст возможность так называемого «анализа мира» - сбора детальных данных о мире, превращая тех, кто носит умные очки, в передвижные камеры видеонаблюдения. Как описывалась эта практика в прошлогоднем отчете The Guardian:

«Каждый раз, когда кто-то посещает супермаркет, его умные очки будут записывать в реальном времени данные о ценах, уровне запасов и привычках просмотра; каждый раз, когда пользователи читали газету, их очки знали, какие истории они читают, какую рекламу они смотрят и на каких фотографиях знаменитостей задерживается их взгляд».

LB-COMP-GLASSES-v2.jpg (286 KB)

Это крайний результат, и он не является предметом исследования, которое, по словам Facebook, в настоящее время проводится. Но это действительно иллюстрирует потенциальное значение сочетания расширенного анализа видео ИИ с умными очками, к чему, по-видимому, стремится социальная сеть.

Facebook запустил проект распознавания видео ИИ для рекомендаций клипов в Reels

Для сравнения, единственное использование своих новых инструментов анализа видео ИИ, которые сейчас раскрывает Facebook, является относительно приземленным. Наряду с объявлением об обучении по видео, Facebook заявил, что развернул новую систему рекомендаций по контенту, основанную на работе с видео в своем клоне TikTok - Reels. «Популярные видеоролики часто состоят из одной и той же музыки, поставленной на одни и те же танцевальные движения, но созданных и исполняемые разными людьми», - говорится в сообщении Facebook. Анализируя содержание видео, ИИ Facebook может предлагать пользователям похожие клипы.

Однако такие алгоритмы рекомендации контента не лишены потенциальных проблем. В недавнем отчете MIT Technology Review подчеркивается, как акцент социальной сети на росте и вовлечении пользователей не позволяет ее команде ИИ полностью рассмотреть вопрос о том, как алгоритмы могут распространять дезинформацию и способствовать политической поляризации. Как говорится в статье Technology Review: «Модели [машинного обучения], которые максимизируют взаимодействие, также способствуют возникновению противоречий, дезинформации и экстремизма». Это создает конфликт между обязанностями исследователей этики ИИ в Facebook и кредо компании - максимизировать рост.

Facebook - не единственная крупная технологическая компания, которая занимается продвинутым анализом видео с помощью ИИ, и не единственная, кто использует для этого данные пользователей. Google, например, поддерживает общедоступный набор исследовательских данных, содержащий 8 миллионов тщательно отобранных и частично промаркированных видеороликов YouTube, чтобы «ускорить исследования в области понимания крупномасштабного видео». Рекламные операции поискового гиганта также могут выиграть от искусственного интеллекта, который понимает содержание видео, даже если конечным результатом будет просто показ более релевантной рекламы на YouTube.

Однако Facebook считает, что у него есть одно особое преимущество перед конкурентами. Он не только имеет достаточно данных для обучения, но и вкладывает все больше и больше ресурсов в метод искусственного интеллекта, известный как обучение с самоконтролем.

Обучение с самоконтролем - «темная материя ИИ»

Обычно, когда модели ИИ обучаются на данных, эти входные данные должны быть помечены людьми: например, маркировка объектов на изображениях или расшифровка аудиозаписей. Если вы когда-либо решали CAPTCHA для определения пожарных гидрантов или пешеходных переходов, то, вероятно, помечали данные, которые помогли обучить ИИ. Но самообучение устраняет ярлыки, ускоряет процесс обучения и, как полагают некоторые исследователи, приводит к более глубокому и значимому анализу, поскольку системы ИИ учатся соединять точки. Facebook настолько оптимистично настроен по поводу самостоятельного обучения, что назвал это «темной материей интеллекта».

Компания заявляет, что ее будущая работа над анализом ИИ видео будет сосредоточена на полу- и самоконтролируемых методах обучения, и что такие методы «уже улучшили наши системы компьютерного зрения и распознавания речи». С таким обилием видеоконтента, доступного от 2,8 миллиарда пользователей Facebook, пропустить часть обучения ИИ с маркировкой, безусловно, имеет смысл. И если социальная сеть сможет научить свои модели машинного обучения беспрепятственно понимать видео, кто знает, чему они смогут научиться сами?

По материалам: The Verge