Meta випустила нову модель перетворення мови в текст, яка може перекладати майже 100 мовами під назвою SeamlessM4T, оскільки компанія продовжує намагатися створити універсальний перекладач .
Meta випускає багатомовну модель перекладу мовлення
SeamlessM4T , що розшифровується як Massively Multilingual and Multimodal Machine Translation, за словами компанії, може перекладати мову в текст і текст в текст для майже 100 мов. Для дій синтезу мовлення та тексту в мовлення він розпізнає 100 мов введення та перетворює їх на 35 вихідних мов.
Він випущений за ліцензією Creative Commons CC BY-NC 4.0 , що дозволяє дослідникам повторювати його.
Разом із SeamlessM4T Meta також випустила метадані для свого відкритого набору даних перекладу SeamlessAlign.
«Створення універсального мовного перекладача, подібного до вигаданої Вавилонської риби в « Автостопом по галактиці» , є складним завданням, оскільки існуючі системи перетворення мови в мову та мови в текст охоплюють лише невелику частину мов світу», — сказав Мета.
Посібник для подорожуючих автостопом Вавилонська рибка, за задумом автора Дугласа Адамса, — це рибка, яку можна покласти у вухо, щоб миттєво зрозуміти будь-яку мову. Якщо ви фанат Doctor Who , ви можете порівняти інструмент Meta з матрицею перекладу в TARDIS, яка перетворює навіть чужі слова на англійську.
Meta сказав, що SeamlessM4T є «значним проривом», оскільки ця нова модель виконує все завдання перекладу за один раз, на відміну від інших великих моделей перекладу, які розподіляють переклад між різними системами.
Однією з цікавих особливостей SeamlessM4T, якщо він може працювати правильно, є його передбачувана здатність розпізнавати, коли мовець перемикає код або коли хтось переходить між двома або більше мовами в одному реченні. Наприклад, Мета продемонструвала у відео, що модель відразу розрізняє гінді, телугу та англійську. Я не тестував цю модель, але я часто перемикаюся між двома моїми рідними мовами (філіппінською та англійською), як і більшість людей, які розмовляють різними мовами, і, з особистого досвіду, це не те, що більшість програм розпізнавання мовлення штучного інтелекту підхоплює. швидко.
SeamlessM4T базується на попередніх моделях перекладу від Meta. Минулого року Meta випустила модель машинного перекладу тексту в текст No Language Left Behind, яка підтримує 200 мов. Він розробив SpeechMatrix, набір даних для багатомовного перекладу мовлення та Massively Multilingual Speech для розпізнавання мовлення. Meta продемонструвала свій універсальний перекладач мовлення минулого року, перетворюючи розмовний хоккієн, широко вживану мову в Китаї, яка не має офіційної системи письма, на англійську.
Мовний переклад важливий для таких компаній, як Meta, які наймають тисячі людей, щоб модерувати потік публікацій у Facebook та Instagram різними мовами. Дуже часто для неосновних мов є менші команди, і в кінцевому підсумку вони покладаються на автоматизовану модерацію, яка погано працює з цими мовами. ШІ, якщо отримати доступ до набору даних цих менших мов, може стати інструментом для таких компаній, як Meta, для покращення модерації.
Щоб створити SeamlessM4T, Meta заявила, що переробила свій набір інструментів для моделювання послідовності Fairseq, щоб створювати більш легкі моделі та обробляти більше інформації.
Розробляючи SeamlessM4T, Meta заявила, що створила систему, яка визначає токсичні або чутливі слова. Meta визначає токсичні слова як випадки, коли «переклад може розпалювати ненависть, насильство, ненормативну лексику або образи». Мета полягає в тому, щоб мати можливість виявити, коли вихідний переклад містить токсичність, якої не було в оригінальному матеріалі.
«Ми відфільтрували незбалансовану токсичність у тренувальних даних. Якщо введення або вихід містили різну кількість токсичності, ми видаляли цю навчальну послідовність», — сказав Мета.
Дослідники також спробували очистити набори даних, які неправильно перекладають ненормативну лексику, щоб точніше визначити, коли вона використовується.
Meta стверджує, що також розпізнає гендерні упередження в мовах і каже, що модель може кількісно визначити гендерні упередження в перекладах. SeamlessM4T може перевірити, чи використано в реченні гендерну форму слова, скажімо, doctora іспанською, і призначити жіночий займенник у цільовій мові без еквівалентної гендерної граматики, якщо потрібно. Підходячи до цього подібно до токсичності, Мета сказав, що SeamlessM4T підраховує, скільки разів переклад додає гендерні слова до термінів, які не були конкретно родовими в мові оригіналу, тобто автоматично припускаючи, що лікар є чоловіком, якщо в англійській мові немає гендерної різниці.
Meta випускає багато своїх моделей ШІ для розробників і дослідників у більш-менш відкритому коді. Нещодавно він випустив AudioCraft , код, який дозволяє генерувати текст у звук. Meta також надала доступ до своєї великої мовної моделі Llama 2 .