DeepL, що перекладає тексти, тепер перекладає також розмови

Дмитро Сизов

DeepL, перекладацька компанія, найбільш відома своїми текстовими інструментами, сьогодні випустила пакет голосового перекладу, який охоплює такі випадки використання, як зустрічі, мобільні та веб-розмови, а також групові розмови для працівників першої лінії через спеціальні додатки. Компанія також випускає API, який дозволяє зовнішнім розробникам і компаніям використовувати технології DeepL для індивідуальних випадків використання, таких як кол-центри.

«Після стількох років роботи в галузі перекладу тексту, голосовий переклад був для нас природним кроком», – сказав генеральний директор DeepL Ярек Кутиловський в інтерв’ю TechCrunch. «Ми пройшли довгий шлях у перекладі тексту та документів. Але ми вважали, що не існує чудового продукту для голосового перекладу в режимі реального часу».

Кутиловський зазначив, що проблеми зі створенням продукту для перекладу в режимі реального часу зосереджені на досягненні балансу між зменшенням затримки — затримки між тим, як хтось говорить, і відтворенням перекладеного аудіо — та забезпеченням точності результатів.

DeepL випускає доповнення для таких платформ, як Zoom та Microsoft Teams, де слухачі можуть або чути переклад у режимі реального часу, поки інші розмовляють рідними мовами, або слідкувати за перекладеним текстом у режимі реального часу на екрані. Ця програма зараз перебуває на стадії раннього доступу, і компанія запрошує організації приєднатися до списку очікування . Компанія також має продукт для мобільних та веб-розмов, які можуть відбуватися особисто або віддалено.

DeepL також дозволяє користувачам брати участь у групових розмовах у таких місцях, як тренінги чи семінари, дозволяючи учасникам приєднуватися за допомогою QR-коду.

DeepL заявила, що її технологія перетворення голосу в голос також може вивчати та адаптуватися до спеціальної лексики, такої як галузеві терміни, а також імена компаній та особисті імена.

Кутиловський сказав, що штучний інтелект переосмислює те, як виглядатиме обслуговування клієнтів у найближчі роки. Він зазначив, що рівень перекладу допомагає компаніям надавати підтримку мовами, для яких кваліфікованого персоналу бракує, а найм дорого.

Компанія заявила, що контролює весь стек перетворення голосу в голос. Однак поточна система перетворює мовлення на текст, застосовує переклад, а потім перетворює його назад на мовлення. DeepL вважає, що, оскільки вона працює над перекладом тексту протягом багатьох років, вона має перевагу в якості перекладу. У майбутньому компанія хоче розробити модель комплексного голосового перекладу, яка повністю пропускає етап перекладу тексту.

DeepL стикається з конкуренцією з боку кількох добре фінансованих стартапів, що працюють у суміжних куточках цієї галузі. Sanas, яка минулого року залучила 65 мільйонів доларів від Quadrille Capital та Teleperformance, використовує штучний інтелект для зміни акценту мовця в режимі реального часу — інструмент, призначений переважно для операторів кол-центрів.

Дубайська компанія Camb.AI спеціалізується на синтезі та перекладі мовлення для медіа- та розважальних компаній Amazon Web Services, допомагаючи їм дублювати та локалізувати відеоконтент у великих масштабах.

Palabra, яку підтримує фірма Seven Seven Six співзасновника Reddit Алексіса Оганяна, створює механізм перекладу мовлення в режимі реального часу, призначений для збереження як значення, так і оригінального голосу мовця , що створює більш пряму конкуренцію тому, що зараз створює DeepL.