Apple створила ШІ, який обчислює дії користувача по звуку та рухам

Apple створила ШІ, який обчислює дії користувача по звуку та рухам

Apple досліджує, як великі мовні моделі можуть розпізнавати активність користувача за звуком і рухами

Apple оприлюднила результати дослідження, яке показує, що великі мовні моделі (LLM) можуть значно покращити розпізнавання активності користувача, аналізуючи мультимодальні дані — аудіо, рухи та текстові описи.

У науковій роботі «Використання LLM для подальшого об’єднання мультимодальних даних датчиків для розпізнавання активності» дослідники показали, як поєднання ШІ та даних сенсорів дає змогу точніше визначати, чим займається людина — від приготування їжі до занять спортом.

Команда Apple використала набір даних Ego4D з тисячами годин відео від першої особи. Невеликі моделі попередньо аналізували аудіо та рухи, перетворюючи їх у текстові описи, які потім передавалися у великі LLM, зокрема Gemini-2.5-pro та Qwen-32B.

Результат виявився вражаючим: навіть без спеціального навчання LLM змогли точно визначати активність за короткими текстовими підказками. А коли моделі отримували один приклад для навчання, точність суттєво зростала.

Найкращі результати були отримані в «закритому наборі», де моделі обирали відповідь із 12 варіантів активності. У «відкритому наборі» (без варіантів) точність також була високою, хоча іноді моделі давали надто узагальнені відповіді.

Apple вважає, що такі можливості відкривають шлях до створення більш розумних та контекстно-обізнаних систем у смартфонах, годинниках та інших ґаджетах. Це може вивести фітнес-трекинг, персональних помічників та інші функції на новий рівень точності.

Источник: portaltele.com.ua