Людиноподібний робот VLA приймає голосові накази та надає допомогу по дому

Дмитро Сизов 21 февраля 2025 10:29

Засновник і генеральний директор Figure Бретт Едкок представив нову модель машинного навчання для гуманоїдних роботів. Новини, які надійшли через два тижні після того, як Adcock оголосив про рішення робототехнічної фірми Bay Area припинити співпрацю з OpenAI , зосереджені навколо Helix, «загальної» моделі Vision-Language-Action (VLA).

VLA — це нове явище для робототехніки, яке використовує зорові та мовні команди для обробки інформації. Наразі найвідомішим прикладом цієї категорії є RT-2 від Google DeepMind , який навчає роботів за допомогою поєднання відео та великих мовних моделей (LLM).

Helix працює подібним чином, поєднуючи візуальні дані та мовні підказки для керування роботом у реальному часі. Рисунок пише: «Helix демонструє сильне узагальнення об’єктів, маючи можливість підібрати тисячі нових предметів домашнього вжитку з різними формами, розмірами, кольорами та властивостями матеріалів, які ніколи раніше не зустрічалися під час навчання, просто запитуючи природною мовою».

В ідеальному світі ви можете просто наказати роботу щось зробити, і він просто це зробить. Ось тут і з’являється Helix, згідно з рисунком. Платформа розроблена для подолання розриву між обробкою зору та мови. Отримавши голосову підказку природною мовою, робот візуально оцінює навколишнє середовище, а потім виконує завдання.

На малюнку наведено приклади, як-от «Передайте мішечок з печивом роботу праворуч» або «Візьміть мішечок з печивом у робота ліворуч і помістіть його у відкриту шухляду». В обох цих прикладах пара роботів працює разом. Це тому, що Helix розроблено для керування двома роботами одночасно, причому один допомагає іншому виконувати різноманітні домашні завдання.

Ілюстрація демонструє VLM, висвітлюючи роботу, яку компанія виконувала зі своїм людиноподібним роботом 02 у домашніх умовах. Будинки, як відомо, складні для роботів, оскільки їм бракує структури та узгодженості складів і фабрик.

Труднощі з навчанням і контролем є головними перешкодами, що стоять між складними роботами та домом. Ці проблеми, разом із п’яти-шестизначними цінниками, є причиною того, що домашні роботи не мають переваги для більшості гуманоїдних робототехнічних компаній. Загалом, підхід полягає в тому, щоб створювати роботів для промислових клієнтів, покращуючи надійність і знижуючи витрати, перш ніж братися за житло. Робота по дому – це розмова на кілька років.

Під час екскурсії TechCrunch в офіси Figure's Bay Area у 2024 році Едкок продемонстрував певні темпи, які компанія долала свого гуманоїда в домашніх умовах. На той час виявилося, що робота не була пріоритетною, оскільки Figure зосереджується на робочих місцях пілотів у таких корпораціях, як BMW.

Оголошенням Helix у четвер Фігура чітко дає зрозуміти, що будинок має бути пріоритетом сам по собі. Це складна та складна ситуація для тестування таких моделей навчання. Навчання роботів виконувати складні завдання на кухні, наприклад, відкриває їм широкий спектр дій у різних умовах.

«Щоб роботи були корисні в домогосподарствах, вони повинні мати можливість генерувати інтелектуальну нову поведінку на вимогу, особливо для об’єктів, яких вони ніколи раніше не бачили», — говорить Фігур. «Наразі навчання роботів навіть одній новій поведінці потребує значних людських зусиль: або години професійного ручного програмування рівня PhD, або тисячі демонстрацій».

Ручне програмування не підходить для дому. Просто забагато невідомих. Кухні, вітальні та ванні кімнати різко відрізняються від однієї до іншої. Те саме можна сказати про інструменти, які використовуються для приготування їжі та прибирання. Крім того, люди залишають безлад, переставляють меблі та віддають перевагу різному екологічному освітленню. Цей метод потребує надто багато часу та грошей — хоча останніх у Figure, безумовно, достатньо .

Інший варіант – навчання – і багато. Роботи, навчені підбирати та розміщувати предмети в лабораторіях, часто використовують цей метод. Чого ви не бачите, так це сотень годин повторення, які потрібні, щоб зробити демонстрацію достатньо надійною для виконання дуже різноманітних завдань. Щоб підібрати щось правильно з першого разу, робот повинен робити це сотні разів у минулому.

Як і багато інших гуманоїдних робототів на цей час, робота над Helix все ще знаходиться на дуже ранній стадії. Слід повідомити глядачам, що за лаштунками відбувається багато роботи над створенням коротких, якісно знятих відео, які можна побачити в цій публікації. Сьогоднішнє оголошення, по суті, є інструментом найму, призначеним для залучення більшої кількості інженерів, які допоможуть розвивати проект.