Physical Intelligence - стартап у галузі робототехніки каже, що його новий робототехнічний мозок мислить як людський

Physical Intelligence опублікував нове дослідження, яке показує, що його остання модель може керувати роботами для виконання завдань, яким вони ніколи не були спеціально навчені, — здатність, яка, за словами власних дослідників компанії, застала їх зненацька.
Нова модель під назвою π0.7 являє собою те, що компанія описує як ранній, але значущий крок до давно прагнутої мети – створення універсального робота-мозку: такого, якому можна вказати на незнайоме завдання, навчити його виконувати простою мовою, і який фактично його виконає. Якщо результати дослідження витримають перевірку, вони свідчать про те, що роботизований ШІ може наближатися до точки перегину, подібної до тієї, що спостерігалася в галузі з моделями з великими мовами, – де можливості починають накопичуватися таким чином, що це випереджає те, що, здавалося б, передбачають базові дані.
Але спочатку: основним твердженням у статті є композиційне узагальнення — здатність поєднувати навички, отримані в різних контекстах, для вирішення проблем, з якими модель ніколи не стикалася. Досі стандартним підходом до навчання роботів було, по суті, механічне запам'ятовування — збір даних для конкретного завдання, навчання спеціалізованої моделі на цих даних, а потім повторення для кожного нового завдання. π0,7, за словами Фізичного інтелекту, порушує цю закономірність.
«Як тільки воно перетинає цей поріг, коли воно переходить від виконання лише тих речей, для яких ви збираєте дані, до фактичного переосмислення речей по-новому», — каже Сергій Левін, співзасновник Physical Intelligence та професор Каліфорнійського університету в Берклі, що спеціалізується на штучному інтелекті для робототехніки, — «можливості зростають більш ніж лінійно з обсягом даних. Цю набагато сприятливішу властивість масштабування ми спостерігаємо в інших галузях, таких як мова та зір».
Найвражаюча демонстрація в статті стосується аерофритюрниці, яку модель практично ніколи не бачила під час навчання. Коли дослідницька група провела дослідження, вони знайшли лише два релевантні епізоди в усьому навчальному наборі даних: один, де інший робот просто закрив аерофритюрницю, і один з набору даних з відкритим кодом, де ще один робот помістив пластикову пляшку всередину за чиїмось вказівками. Модель якимось чином синтезувала ці фрагменти, а також ширші веб-дані перед навчанням, у функціональне розуміння того, як працює пристрій.
«Дуже важко відстежити, звідки беруться ці знання, або де вони будуть успішними чи невдалими», — каже Люсі Ши, дослідниця фізичного інтелекту та докторантка з інформатики Стенфордського університету. Тим не менш, без жодного навчання, модель зробила непогану спробу використати прилад для приготування солодкої картоплі. Завдяки покроковим усним інструкціям — по суті, людина проводить робота через завдання так, як ви пояснюєте щось новому співробітнику — він успішно виконав завдання.
Ця коучингова здатність важлива, оскільки вона передбачає, що роботів можна розгортати в нових середовищах та вдосконалювати в режимі реального часу без додаткового збору даних чи перенавчання моделей.
То що ж усе це означає? Дослідники не соромляться обмежень моделі та намагаються не забігати наперед. Принаймні в одному випадку вони прямо звинувачують власну команду.
«Іноді причина відмови не в роботу чи моделі», — каже Ши. «Це наша провина. Ми не вміємо швидко розробляти рішення». Вона описує ранній експеримент з аерофритюрницею, який показав 5% успіху. Після приблизно півгодини вдосконалення пояснення завдання моделі, він підскочив до 95%, каже вона.
Модель також поки що не здатна виконувати складні багатоетапні завдання автономно за допомогою однієї команди високого рівня. «Ви не можете сказати їй: «Гей, зроби мені тост», — каже Левін. «Але якщо ви покроково покажете: «для тостера відкрий цю частину, натисни ту кнопку, зроби ось це» — тоді вона, як правило, працює досить добре».
Команда також визнала, що стандартизованих орієнтирів для робототехніки насправді не існує, що ускладнює зовнішню перевірку їхніх заяв. Натомість компанія виміряла π0,7 порівняно зі своїми попередніми спеціалізованими моделями — спеціально створеними системами, навченими окремим завданням — і виявила, що універсальна модель відповідає їхній продуктивності в ряді складних робіт, включаючи приготування кави, складання білизни та складання коробок.
Найбільш примітним у дослідженні, якщо вірити дослідникам на слово, може бути не окрема демонстрація, а те, наскільки результати здивували їх, людей, чия робота полягає в тому, щоб точно знати, що міститься в навчальних даних, а отже, що модель повинна і не повинна робити.
«Мій досвід завжди показував, що коли я достеменно знаю дані, я можу лише здогадуватися, що зможе зробити модель», — каже Ашвін Балакрішна, науковий співробітник Physical Intelligence. «Я рідко дивуюся. Але останні кілька місяців були першим випадком, коли я щиро здивований. Я просто купив навмання набір шестерень і запитав робота: «Гей, чи можеш ти обертати цю шестерню?» І вона просто спрацювала».
Левін згадав момент, коли дослідники вперше зіткнулися з GPT-2, що призвело до появи історії про єдинорогів в Андах . «Звідки, чорт забирай, він дізнався про єдинорогів у Перу?» — каже він. «Це таке дивне поєднання. І я думаю, що побачити це в робототехніці — це справді щось особливе».
Звичайно, критики вкажуть на незручну асиметрію: мовні моделі мали весь інтернет для навчання. Роботи цього не роблять, і жодні розумні підказки повністю не закривають цю прогалину. Але коли його запитали, звідки він очікує такого скептицизму, Левін вказує на зовсім інше.
«Критика, яку завжди можна висунути на адресу будь-якої демонстрації робототехнічного узагальнення, полягає в тому, що завдання дещо нудні», — каже він. «Робот не робить сальто назад». Він заперечує цю формулювання, стверджуючи, що різниця між вражаючою демонстрацією робота та роботизованою системою, яка насправді узагальнює, полягає саме в цьому. Узагальнення, на його думку, завжди виглядатиме менш драматично, ніж ретельно поставлений трюк, але воно значно корисніше.
У самій статті використовується обережна термінологія хеджування, описуючи π0.7 як таке, що демонструє «ранні ознаки» узагальнення та «початкові демонстрації» нових можливостей. Це результати досліджень, а не розгорнутий продукт.
Коли Левіна безпосередньо запитали, коли система, заснована на цих висновках, може бути готова до реального розгортання, він відмовився давати припущення. «Я думаю, що є вагомі підстави для оптимізму, і, безумовно, це прогресує швидше, ніж я очікував кілька років тому», – каже він. «Але мені дуже важко відповісти на це питання».
На сьогоднішній день Physical Intelligence залучила понад 1 мільярд доларів, а нещодавно її оцінили у 5,6 мільярда доларів. Значна частина ентузіазму інвесторів щодо компанії пов'язана з Лачі Грумом, співзасновником, який роками був одним із найшанованіших бізнес-ангелів Кремнієвої долини, підтримуючи, серед інших, Figma, Notion та Ramp, перш ніж вирішив, що Physical Intelligence — це саме та компанія, яку він шукав. Цей досвід допоміг стартапу залучити серйозні інституційні кошти, навіть попри те, що він відмовився запропонувати інвесторам терміни комерціалізації.