Голосовые помощники станут инклюзивными

Романов Роман
Голосовые помощники станут инклюзивными

Технологии, которые могут понимать региональные акценты, и нейтральные в гендерном отношении голосовые помощники являются одними из разработок, ожидаемых в области голосовых данных в 2020-м.

Такие продукты, как Alexa и Siri, столкнулись с растущей критикой, что технология, лежащая в их основе, непропорционально и неправильно понимает женщин, этнические меньшинства и тех, чьи акценты не представлены в наборах данных.

В ответ на эти запросы волна новых проектов направлена ​​на то, чтобы восстановить баланс и сделать растущую индустрию голосовых технологий более инклюзивной.

Исследования, проведенные  Washington Post попросили несколько человек прочитать различные заголовки новостей, а затем посмотрели на реакцию Alexa, о том, что люди говорили. Разница между тем, что было сказано, и тем, что понимало устройство, была на 30% больше для людей, говоривших с неродным акцентом.

Недавние исследования также показали, что распознавание речи в Google на 13% точнее для мужского голоса, чем для женского.

Еще один стартап, который намерен сделать голосовые технологии более инклюзивными, - это проект Q, «голосовой ассистент, нейтральный с точки зрения пола», который планируется запустить в 2020-м.

«Современные голосовые технологии, по сути, гендерные», - говорит Райан Шерман, креативный разработчик в Project Q. «Когда мы смотрим на Siri или Google Assistant, они все в основном говорят как женщины по умолчанию, поэтому мы начали с вопроса: почему мы определяем пол ИИ

Проект Q стартовал в 2019 году с прототипа голоса, разработанного небинарными лингвистами. Затем они опросили выборку из 4500 человек со всей Европы, звучала ли технология как мужчина или женщина. Ответы разделились 50/50.

«Сейчас мы работаем над тем, чтобы превратить Q в реальный голос, который можно использовать как для голосовых помощников, так и для станций метро, ​​игр ... это огромный потенциал», - говорит Шерман.

Он также с оптимизмом смотрит на то, что преобразование звуковой архитектуры в повседневной жизни может изменить отношение к технологии.

Созданные компании также пытаются диверсифицировать технологии голосовой связи. Mozilla запустила проект Common Voice в 2019-м с целью привлечения глобальных голосов в качестве набора данных, чтобы помочь разнообразить речь ИИ посредством машинного обучения.

«Мы узнали о компаниях, которые запускали аналогичные проекты много лет назад, что они часто брали наборы данных, которые поступали с общественного радио», - сказала Катарина Борхерт, директор по инновациям Mozilla. «Это были мужчины, носители языка с действительно хорошо поставленными голосами. Что автоматически привело к непредвзятому результату, потому что это все, что есть у машины. Там не так много женских голосов, и в нем нет людей с безумными акцентами».

Би-би-си также разрабатывает голосового помощника под названием Beeb, который будет запущен в 2020-м. Он предназначен для того, чтобы отвечать на запросы пользователей, от просьбы запустить канал, до воспроизведения последних новостей.

Мукул Девичанд, исполнительный редактор корпорации по голосу и искусственному интеллекту, говорит, что он также ищет способы лучше реагировать на региональные акценты.

«Мы просили людей высказывать свое мнение из разных уголков страны, чтобы помочь нам убедиться, что голосовой помощник распознает региональные акценты и правильно интерпретирует то, как язык используется в этой стране», - говорит он.

Д-р Сол Альберт, преподаватель общественных наук в Университете Лафборо, скептически относится к тому, что эти техно-новинки будут предоставлять полный объем помощи. «Если эти технологии будут соответствовать их маркетинговым обещаниям, Amazon, Google и другим технологическим компаниям придется привлекать инвалидов к совместному проектированию на каждом этапе процесса», - говорит он.

Существуют стандартные функции доступа, разработанные для таких продуктов, как Google Home и Amazon Echo, а также специальные инициативы, такие как проект Google Euphonia, который изучает модели голоса отдельных пользователей с нарушениями речи. У Amazon также есть представители, работающие с поставщиками услуг по уходу и местными властями над проектами «умного дома» по всей стране.

Доктор Ли Кларк, эксперт по взаимодействию человека с компьютером в Университете Суонси, настроен более оптимистично, хотя и говорит, что при расширении некоторых из этих проектов все еще существуют сложности: «Если ли у нас есть нейтральные в гендерном отношении голоса, станут ли они нормой или же еще одним вариантом для конечного потребителя при настройке своих голосовых помощников?»

Тем не менее, несмотря на очевидное несовершенство  подобных проектов, они привлекают внимание к вопросам разнообразия в области голосовых технологий, что само по себе может привести к тому, что крупные компании будут производить собственные нейтральные в гендерном отношении голоса для своих систем. Даже если Проект Q используется в ограниченных сценариях, его результаты могут быть гораздо более обширными.

По материалам: The Guardian и The Washington Post