Oasis 3 дозволить користувачам віртуальне автоводіння по всьому світу

Стартап штучного інтелекту Decart у середу представив Oasis 3, свою новітню інтерактивну модель світу, яка може генерувати фотореалістичні середовища для водіння в режимі реального часу, ексклюзивно дізнався TechCrunch. Модель наразі доступна через API.
Стартап спочатку орієнтується на компанії з виробництва автономних транспортних засобів, яким потрібно імітувати рідкісні сценарії водіння у великих масштабах, і планує розширитися на робототехніку та інші фізичні застосування штучного інтелекту. Але більша ставка робиться на розробників: пропонуючи доступ до API з першого дня, Decart намагається побудувати екосистему розробників навколо світових моделей, подібно до того, як OpenAI зробив це з мовними моделями.
«Це буде перша модель світу, яку люди зможуть використовувати для програмування», – сказав TechCrunch Дін Лейтерсдорф, співзасновник і генеральний директор Decart. «Я думаю, що на цьому базі виникне ціла спільнота розробників».
Стартап вже має спільноту з понад 100 000 розробників, багато з яких створюють продукти на основі моделі відео в реальному часі Lucy, переважно в електронній комерції та прямих трансляціях. Oasis 3 базується на цій базовій моделі та є кроком компанії у напрямку фізичного штучного інтелекту. Вартість доступу становить 0,02 долара за секунду, а ціноутворення для підприємств залежить від варіантів використання, сказав Декарт.
Decart грає на дедалі більш насиченій арені моделей світу. Минулого року Google випустила Genie 3 у дослідницькій попередній версії, World Labs Фей-Фей Лі запустила Marble для комерційного використання, а стартапи з генерації відео, такі як Luma та Runway, також перетворюють свої відеомоделі, що враховують фізику, на моделі світу.
Випуск Oasis 3 відбувся через кілька тижнів після того, як дворічна Decart залучила 300 мільйонів доларів, що, за словами Ляйтерсдорфа, сталося після «величезного зростання попиту на моделі, які ми створили» в галузі електронної комерції, прямих трансляцій та фізичного штучного інтелекту. Раунд підвищив оцінку Decart майже до 4 мільярдів доларів і залучив низку стратегічних інвесторів, таких як Toyota, Adobe та eBay. Усі ці компанії є потенційними клієнтами, каже Ляйтерсдорф. Nvidia, існуючий інвестор, також брала участь у раунді.
Перевага Oasis 3 полягає у фотореалізмі моделей та безмежній можливості генерації. Це завдяки деяким майстерним заходам Decart щодо ефективності, що базуються на іншому основному продукті компанії: програмному забезпеченні DOS (Decart Optimization Stack), яке дозволяє моделям ефективно працювати на обладнанні Nvidia, Amazon та Google, що робить їхні моделі набагато дешевшими в експлуатації, ніж у конкурентів.
За словами Лейтерсдорфа, моделі стартапу настільки ефективні, що за час свого існування він витратив «значно менше» ніж 100 мільйонів доларів.
Oasis 3 генерує фізично точні середовища з кількома камерами — однією фронтальною та двома бічними — для навчання та тестування систем. Замість обмежених демонстрацій та попередніх переглядів досліджень, Decart дозволяє розробникам генерувати сценарії нескінченно, що ідеально підходить для розробників автономних транспортних засобів, які прагнуть випробувати якомога більше граничних випадків.
Порівняно з іншими моделями, які я пробував, такими як Genie 3 від Google або Marble від World Labs, Oasis 3 пропонує найбільш фотореалістичне середовище з однієї текстової підказки, яку я бачив. А той факт, що ви можете взаємодіяти з ними годинами, свідчить про рівень ефективності, якого може бракувати конкурентам Decart.
Але якщо дозволити вам генерувати світ так довго, модель також значно погіршиться. Під час тестування я виявив, що система може послідовно створювати сильну початкову сцену, яка відповідає підказці, але тематична цілісність швидко погіршувалася, коли я рухався світом. Я запропонував їй згенерувати вулицю Нью-Йорка вранці, і вона чудово це зробила. Але коли я їхав, середовище виглядало не стільки як Нью-Йорк, скільки як стандартна версія будь-якого міського західного міста.
Коли я спробував розвернутися та повернутися до початкового перехрестя, воно зникло, замінивши себе абсолютно новим середовищем. До того ж, керування не дуже чуйне, і я часто втрачав контроль над тим, куди рухається машина (знову ж таки, недолік, властивий іншим моделям світів, які я тестував). Досвід відчувався не стільки як зв'язна симуляція, скільки як сновидний, розрізнений потік свідомості, який швидко втрачає сенс.
Ще одна проблема, яку я також спостерігав в інших світових моделях, полягає в тому, що автомобіль просто проїжджатиме крізь інші автомобілі, а це означає, що модель не імітує фізику навколишнього середовища належним чином. Лайтерсдорф називає це «серйозною дослідницькою проблемою, яку ми зараз вирішуємо», пояснюючи це тим фактом, що «існує значно більше даних про гарне водіння порівняно з аваріями».
Частково те, що ускладнює цю фізичну узгодженість, пов'язане з фундаментальними принципами роботи цієї моделі світу. Oasis 3 є авторегресивним, тобто він генерує один кадр за раз і аналізує попередньо згенеровані кадри, щоб вирішити, що робити далі. Це ключова архітектурна особливість багатьох моделей світу, і вона також вимагає ресурсів обчислювальної техніки.
За словами Лейтерсдорфа, команда Декарта працює над покращенням довжини пам'яті моделі, щоб підтримувати узгодженість.
«Кожен кадр, який ми генеруємо, містить приблизно 8000 токенів», – сказав він. «Генерація зі швидкістю десятки кадрів на секунду – це сотні тисяч токенів на секунду. Вікно контексту заповнюється дуже швидко. Ми досліджуємо, як зробити довший контекст, щоб зберігати мільйони токенів більше, і як стиснути пам’ять до меншої кількості токенів».
Лайтерсдорф вважає, що проблема узгодженості може бути частково вирішена в наступній версії моделі, яка дозволить користувачам почати створювати світи на основі відео середовища, а не зображення. Він визнав, що моделі світу як галузь ще перебувають на ранній стадії розвитку.
Однак, засновник менше зосереджений на поточних обмеженнях своєї технології, ніж на тому, що станеться, коли розробники отримають її в свої руки.
«Це повертає мене до ранніх днів LLM, коли OpenAI винайшов API для моделей», – сказав він, вказуючи на появу спільноти розробників, яка просунула цю галузь, знаходячи та створюючи нові варіанти використання.
«Коли ми знову поговоримо через три місяці, ми скажемо: «Ось 100 розробників, які створили 100 різних додатків за допомогою Oasis, що здивувало всіх нас», – сказав він.