DeepL, що перекладає тексти, тепер перекладає також розмови

DeepL, перекладацька компанія, найбільш відома своїми текстовими інструментами, сьогодні випустила пакет голосового перекладу, який охоплює такі випадки використання, як зустрічі, мобільні та веб-розмови, а також групові розмови для працівників першої лінії через спеціальні додатки. Компанія також випускає API, який дозволяє зовнішнім розробникам і компаніям використовувати технології DeepL для індивідуальних випадків використання, таких як кол-центри.
«Після стількох років роботи в галузі перекладу тексту, голосовий переклад був для нас природним кроком», – сказав генеральний директор DeepL Ярек Кутиловський в інтерв’ю TechCrunch. «Ми пройшли довгий шлях у перекладі тексту та документів. Але ми вважали, що не існує чудового продукту для голосового перекладу в режимі реального часу».
Кутиловський зазначив, що проблеми зі створенням продукту для перекладу в режимі реального часу зосереджені на досягненні балансу між зменшенням затримки — затримки між тим, як хтось говорить, і відтворенням перекладеного аудіо — та забезпеченням точності результатів.
DeepL випускає доповнення для таких платформ, як Zoom та Microsoft Teams, де слухачі можуть або чути переклад у режимі реального часу, поки інші розмовляють рідними мовами, або слідкувати за перекладеним текстом у режимі реального часу на екрані. Ця програма зараз перебуває на стадії раннього доступу, і компанія запрошує організації приєднатися до списку очікування . Компанія також має продукт для мобільних та веб-розмов, які можуть відбуватися особисто або віддалено.
DeepL також дозволяє користувачам брати участь у групових розмовах у таких місцях, як тренінги чи семінари, дозволяючи учасникам приєднуватися за допомогою QR-коду.
DeepL заявила, що її технологія перетворення голосу в голос також може вивчати та адаптуватися до спеціальної лексики, такої як галузеві терміни, а також імена компаній та особисті імена.
Кутиловський сказав, що штучний інтелект переосмислює те, як виглядатиме обслуговування клієнтів у найближчі роки. Він зазначив, що рівень перекладу допомагає компаніям надавати підтримку мовами, для яких кваліфікованого персоналу бракує, а найм дорого.
Компанія заявила, що контролює весь стек перетворення голосу в голос. Однак поточна система перетворює мовлення на текст, застосовує переклад, а потім перетворює його назад на мовлення. DeepL вважає, що, оскільки вона працює над перекладом тексту протягом багатьох років, вона має перевагу в якості перекладу. У майбутньому компанія хоче розробити модель комплексного голосового перекладу, яка повністю пропускає етап перекладу тексту.
DeepL стикається з конкуренцією з боку кількох добре фінансованих стартапів, що працюють у суміжних куточках цієї галузі. Sanas, яка минулого року залучила 65 мільйонів доларів від Quadrille Capital та Teleperformance, використовує штучний інтелект для зміни акценту мовця в режимі реального часу — інструмент, призначений переважно для операторів кол-центрів.
Дубайська компанія Camb.AI спеціалізується на синтезі та перекладі мовлення для медіа- та розважальних компаній Amazon Web Services, допомагаючи їм дублювати та локалізувати відеоконтент у великих масштабах.
Palabra, яку підтримує фірма Seven Seven Six співзасновника Reddit Алексіса Оганяна, створює механізм перекладу мовлення в режимі реального часу, призначений для збереження як значення, так і оригінального голосу мовця , що створює більш пряму конкуренцію тому, що зараз створює DeepL.