Mistral випускає нову модель з відкритим кодом для генерації мовлення

Французька компанія Mistral, що займається штучним інтелектом, у четвер випустила нову модель перетворення тексту в мовлення з відкритим кодом, яку можуть використовувати голосові помічники зі штучним інтелектом або в корпоративних випадках, таких як підтримка клієнтів. Модель, яка дозволяє підприємствам створювати голосових агентів для продажів та взаємодії з клієнтами, ставить Mistral у пряму конкуренцію таким компаніям, як ElevenLabs, Deepgram та OpenAI.
Нова модель під назвою Voxtral TTS підтримує дев'ять мов, включаючи англійську, французьку, німецьку, іспанську, голландську, португальську, італійську, хінді та арабську.
«Наші клієнти просили модель мовлення. Тож ми створили невелику модель мовлення, яка може поміститися на смарт-годиннику, смартфоні, ноутбуці або інших периферійних пристроях. Її вартість значно нижча за будь-що інше на ринку, але вона пропонує найсучаснішу продуктивність», – розповів TechCrunch П’єр Сток, віце-президент з наукових операцій Mistral AI, під час телефонного інтерв’ю.
Містраль заявив, що нова модель може адаптувати власний голос із семплом менше п'яти секунд, а також вловлювати такі характеристики, як ледь помітні акценти, інтонації, інтонації та нерівності в потоці мовлення. Модель, заснована на Ministral 3B , може легко перемикатися між мовами, не втрачаючи характеристик голосу, що корисно для таких випадків використання, як дубляж або переклад у реальному часі. Сток сказав, що компанія хотіла, щоб модель звучала як людина, а не як робот.
За словами компанії, модель була створена для роботи в режимі реального часу. Вона має час до першого аудіо (TTFA) — показник, який показує, коли модель починає «говорити» після отримання вхідних даних — 90 мс для 10-секундного зразка з 500 символів. Модель також має коефіцієнт реального часу (RTF) 6x, що означає, що вона може відтворити 10-секундний кліп приблизно за 1,6 секунди.
Раніше цього року Mistral запустила дві моделі транскрипції : одну для обробки великих пакетів даних, а іншу — для використання в режимі реального часу з низькою затримкою. За допомогою нової моделі мовлення компанія, ймовірно, прагне надати підприємствам повний набір голосових продуктів.
«Ми плануємо створити комплексну платформу, яка може обробляти мультимодальні потоки вхідних даних, включаючи аудіо, текст, зображення та вивід. Головна перевага полягає в тому, що ви отримуєте набагато більше інформації завдяки комплексній агентній системі, яка підтримує аудіо як вхідний або вихідний сигнал», – сказав Сток.
Позиціонування Mistral полягає в тому, що його відкритий вихідний код та можливість налаштування допоможуть підприємствам прийняти його голосові моделі серед конкурентів, оскільки вони зможуть налаштувати їх так, як їм потрібно.