Стартап Covariant наділяє промислових роботів штучним інтелектом

Дмитро Сизов 12 марта 2024 09:14

Такі компанії, як OpenAI і Midjourney, створюють чат-боти , генератори зображень та інші інструменти штучного інтелекту, які працюють у цифровому світі.

Зараз стартап, заснований трьома колишніми дослідниками OpenAI, використовує методи розробки технологій, що лежать в основі чат-ботів, щоб створити технологію ШІ, яка може орієнтуватися у фізичному світі.

Covariant, робототехнічна компанія зі штаб-квартирою в Емерівілі, штат Каліфорнія , створює способи, за допомогою яких роботи збиратимуть, переміщують і сортують предмети під час їх переміщення через склади та центри розподілу. Його мета — допомогти роботам зрозуміти, що відбувається навколо них, і вирішити, що їм робити далі.

Технологія також дає роботам широке розуміння англійської мови, дозволяючи людям спілкуватися з ними так, ніби вони спілкуються за допомогою ChatGPT.

Технологія, яка все ще знаходиться в стадії розробки, не є ідеальною. Але це явна ознака того, що системи штучного інтелекту, які керують онлайн-чат-ботами та генераторами зображень, також будуть живити машини на складах, на дорогах і в будинках.

Подібно до чат-ботів і генераторів зображень, ця робототехнічна технологія вивчає свої навички, аналізуючи величезну кількість цифрових даних. Це означає, що інженери можуть вдосконалювати технологію, надаючи їй все більше даних.

Covariant, який фінансується 222 мільйонами доларів, не створює роботів. Він створює програмне забезпечення, яке керує роботами. Компанія прагне розгорнути свою нову технологію зі складськими роботами, надаючи дорожню карту для інших, щоб зробити те саме на виробничих підприємствах і, можливо, навіть на дорогах з безпілотними автомобілями.

Троє людей, посміхаючись і розмовляючи між собою, сидять перед ноутбуком за столом у штаб-квартирі Covariant, яка має високі стелі та великі скляні конструкції. — Штаб-квартира Covariant в Емерівілі, Каліфорнія. Зліва направо Ендрю Сон, менеджер із продукції; Даніель Адельберг, старший інженер програмного забезпечення; та Ануша Нагабанді, науковий співробітник.

Системи штучного інтелекту, які керують чат-ботами та генераторами зображень, називаються нейронними мережами , названими на честь мережі нейронів у мозку.

Виявляючи шаблони у величезних обсягах даних, ці системи можуть навчитися розпізнавати слова, звуки та зображення або навіть генерувати їх самостійно. Ось як OpenAI створив ChatGPT, давши йому можливість миттєво відповідати на запитання, писати курсові роботи та створювати комп’ютерні програми. Він навчився цим навичкам із тексту, зібраного з Інтернету. (Кілька засобів масової інформації, включаючи The New York Times, подали до суду на OpenAI за порушення авторських прав.)

Компанії зараз створюють системи, які можуть навчатися на різних видах даних одночасно. Наприклад, аналізуючи як колекцію фотографій, так і підписи, які описують ці фотографії, система може зрозуміти взаємозв’язок між ними. Він може дізнатися, що слово «банан» описує вигнутий жовтий плід.

OpenAI використовував цю систему для створення Sora , свого нового відеогенератора. Аналізуючи тисячі відео з субтитрами, система навчилася генерувати відео, якщо отримати короткий опис сцени, як-от «розкішно відтворений паперовий світ коралового рифу, який рясніє різнокольоровими рибами та морськими істотами».

Компанія Covariant, заснована Пітером Аббілом, професором Каліфорнійського університету в Берклі, і трьома його колишніми студентами, Пітером Ченом, Рокі Дуаном і Тяньхао Чжаном, використовувала подібні методи для створення системи, яка керує складськими роботами.

Компанія допомагає використовувати сортувальних роботів на складах по всьому світу . Він витратив роки на збір даних з камер та інших датчиків, які показують, як працюють ці роботи.

«Він отримує всілякі дані, важливі для роботів, які можуть допомогти їм зрозуміти фізичний світ і взаємодіяти з ним», — сказав доктор Чен.

Поєднавши ці дані з величезною кількістю тексту, який використовується для навчання чат-ботів, таких як ChatGPT, компанія створила технологію ШІ, яка дає її роботам набагато ширше розуміння навколишнього світу.

Після виявлення закономірностей у цій суміші зображень, сенсорних даних і тексту технологія дає роботу здатність справлятися з несподіваними ситуаціями у фізичному світі. Робот знає, як підняти банан, навіть якщо він ніколи раніше не бачив банана.

Він також може відповідати простою англійською мовою, подібно до чат-бота. Якщо ви скажете йому «взяти банан», він знає, що це означає. Якщо ви скажете йому «взяти жовтий плід», він також це зрозуміє.

Він навіть може створювати відео, які передбачають, що може статися, коли він намагається підняти банан. Ці відео не мають практичного використання на складі, але вони показують, як робот розуміє, що навколо нього.

«Якщо він може передбачити наступні кадри у відео, він може визначити правильну стратегію, якої слід дотримуватися», — сказав доктор Аббіл.

Технологія під назвою RFM, базова модель робототехніки, припускається помилок, як і чат-боти . Хоча він часто розуміє, чого від нього вимагають люди, завжди є шанс, що він цього не зробить. Час від часу він кидає предмети.

Відео, згенероване технологією штучного інтелекту Covariant, яке показує, що має статися далі та як повинен реагувати робот.

Гері Маркус, підприємець зі штучного інтелекту та почесний професор психології та нейронауки в Нью-Йоркському університеті, сказав, що ця технологія може бути корисною на складах та в інших ситуаціях, де помилки допустимі. Але він сказав, що розгортання на виробничих підприємствах та в інших потенційно небезпечних ситуаціях буде складнішим і ризикованішим.

«Це зводиться до ціни помилки», — сказав він. «Якщо у вас є 150-фунтовий робот, який може зробити щось шкідливе, ціна може бути високою».

У міру того як компанії тренують таку систему на все більших і різноманітних колекціях даних, дослідники вважають, що вона швидко вдосконалюватиметься.

Це дуже відрізняється від того, як роботи працювали в минулому. Як правило, інженери програмували роботів виконувати один і той самий точний рух знову і знову — наприклад, брати коробку певного розміру або прикріплювати заклепку в певному місці на задньому бампері автомобіля. Але роботи не могли впоратися з несподіваними чи випадковими ситуаціями.

Навчаючись на цифрових даних — сотнях тисяч прикладів того, що відбувається у фізичному світі — роботи можуть почати справлятися з несподіваним. І коли ці приклади поєднуються з мовою, роботи також можуть відповідати на текстові та голосові пропозиції, як це зробив би чат-бот.

Це означає, що, як і чат-боти та генератори зображень, роботи стануть спритнішими.

«Те, що міститься в цифрових даних, можна перенести в реальний світ», — сказав доктор Чень.