Вчені створили модель керування автомобілем за допомогою голосу
Дослідники з Університету Макао створили нову модель керування автономним автомобілем за допомогою голосових команд. Розробка поєднує комп'ютерний зір, розуміння природної мови та потужні мовні моделі.
Вчені відзначають, що люди поки що з побоюванням ставляться до повної передачі керування машинам. Голосовий помічник дозволить пасажирам надавати вказівки автомобілю, підвищуючи довіру до автономного транспорту.
Складність полягає в тому, щоб навчити систему розуміти природне мовлення та пов'язувати її з обстановкою на дорозі. Дослідники використовували набір даних Talk2Car, де потрібно вказувати на ділянки дороги на основі текстових інструкцій.
Для вирішення цього завдання створено модель CAVG. Вона використовує зір для виділення областей на зображенні з камери, а потім аналізує їх відповідність командам. Особливу увагу приділено розумінню емоційного контексту команд та складних ситуацій на дорозі. У моделі застосовуються сучасні мовні технології, як GPT-4V, для точної інтерпретації команд.
Для перевірки ефективності модель відчували у складних умовах: уночі, у щільному міському потоці, з неоднозначними командами та поганою видимістю.
CAVG показала високі результати, перевершивши існуючі рішення. Дослідження планують розвивати, додаючи до системи більше видів даних, на зразок виду зверху (з висоти пташиного польоту) та інформації про траєкторію руху. Це дозволить підвищити точність керування та зробити автономні автомобілі ще надійнішими.