OpenAI запускає нові функції голосового інтелекту у своєму API
OpenAI заявила, що її API тепер включатиме низку нових функцій голосового інтелекту, розроблених, щоб допомогти розробникам створювати додатки, які можуть розмовляти, транскрибувати та перекладати розмови з користувачами.
Нова модель GPT‑Realtime‑2 від компанії — це ще одна голосова модель, створена для створення реалістичної вокальної симуляції, яка може спілкуватися з користувачами. Однак, на відміну від свого попередника (GPT-Realtime-1.5), ця модель побудована з використанням міркувань класу GPT‑5, які, за словами OpenAI, були створені для обробки складніших запитів від користувачів.
Компанія також запускає GPT‑Realtime‑Translate, який, як здається, розроблений для надання послуг перекладу в режимі реального часу, що «йдуть в ногу» з користувачем у розмовному режимі. Ця функція включає понад 70 мов введення (тобто мов, які вона може зрозуміти) та 13 мов виведення (мов, які вона передає мовцю).
Нарешті, компанія також запустила нову функцію транскрипції GPT-Realtime-Whisper, яка надає користувачам можливості перетворення мовлення в текст у реальному часі, що записуються під час взаємодії.
«Разом моделі, які ми запускаємо, переносять аудіо в реальному часі від простого виклику та відповіді до голосових інтерфейсів, які дійсно можуть працювати: слухати, міркувати, перекладати, транскрибувати та вживати заходів у міру розвитку розмови», – заявили в компанії.
Для кого будуть корисні ці оновлення? Компанії, які хочуть розширити можливості обслуговування клієнтів, є очевидною цільовою аудиторією. Однак OpenAI також зазначає, що його нові функції допоможуть у широкому спектрі сфер, включаючи освіту, медіа, події та платформи для творців тощо.
Хоча ці інструменти здаються корисними з точки зору підприємства, також видається правдоподібним, що їх можна використовувати неналежним чином. Компанія заявила, що створила захисні бар'єри, щоб запобігти зловживанню її новими функціями для створення спаму, шахрайства чи інших форм онлайн-зловживань. У систему вбудовано певні тригери, щоб «розмови можна було зупинити, якщо буде виявлено, що вони порушують наші правила щодо шкідливого контенту», – заявили в OpenAI.
Усі нові голосові моделі включені до Realtime API OpenAI . Translate та Whisper тарифікуються похвилинно, тоді як GPT-Realtime-2 тарифікується за споживання токенів.