Google хоче розповісти людям історію їхнього життя за допомогою телефонних даних і фотографій

Команда Google запропонувала використовувати технологію штучного інтелекту для створення «з висоти пташиного польоту» життя користувачів за допомогою даних мобільних телефонів, таких як фотографії та пошукові запити.
Названий «Проект Еллмана» на честь біографа та літературознавця Річарда Девіда Еллмана, ідея полягала б у тому, щоб використовувати LLM, як-от Gemini, для отримання результатів пошуку, виявлення шаблонів на фотографіях користувача, створення чат-бота та «відповідей на раніше неможливі запитання», згідно з копія презентації, яку переглядав CNBC. Мета Еллмана, як зазначено в ньому, — стати «розповідачем історій вашого життя».
Незрозуміло, чи планує компанія створити ці можливості в Google Photos або будь-якому іншому продукті. Згідно з публікацією в блозі компанії, Google Photos має понад 1 мільярд користувачів і 4 трильйони фотографій і відео .
Проект Еллмана — це лише один із багатьох способів, якими Google пропонує створити або вдосконалити свої продукти за допомогою технології ШІ. У середу Google запустив свою останню «найпотужнішу» та передову модель штучного інтелекту Gemini, яка в деяких випадках перевершила GPT-4 OpenAI. Компанія планує ліцензувати Gemini широкому колу клієнтів через Google Cloud, щоб вони могли використовувати їх у власних програмах. Одна з видатних особливостей Gemini полягає в тому, що він мультимодальний, тобто він може обробляти та розуміти інформацію, окрім тексту, включаючи зображення, відео та аудіо.
Менеджер із продуктів GoogleФотографії, представлені Project Ellman разом із командами Gemini на нещодавньому внутрішньому саміті, згідно з документами, які переглянув CNBC. Вони написали, що команди витратили останні кілька місяців, щоб визначити, що великі мовні моделі є ідеальною технологією для втілення цього підходу до історії життя з висоти пташиного польоту.
Еллманн міг використовувати контекст, використовуючи біографії, попередні моменти та наступні фотографії, щоб описати фотографії користувача глибше, ніж «просто пікселі з мітками та метаданими», йдеться в презентації. Він пропонує можливість ідентифікувати низку моментів, як-от роки навчання в університеті, роки в Bay Area та роки батьківства.
«Ми не можемо відповісти на складні запитання чи розповісти хороші історії, не подивившись на ваше життя з висоти пташиного польоту», — йдеться в одному описі поруч із фотографією маленького хлопчика, який грається з собакою в бруді.
«Ми переглядаємо ваші фотографії, дивлячись на їхні теги та розташування, щоб визначити значущий момент», — йдеться на слайді презентації. «Коли ми відійдемо назад і зрозуміємо ваше життя в повному обсязі, ваша головна історія стане зрозумілою».
У презентації говорилося, що великі мовні моделі можуть передбачити такі моменти, як народження дитини користувача. «Цей магістр права може використовувати знання з вищого рівня дерева, щоб зробити висновок, що це народився Джек і що він перша й єдина дитина Джеймса та Джемми».
«Однією з причин, чому LLM настільки потужний для цього підходу з висоти пташиного польоту, є те, що він здатний брати неструктурований контекст з усіх різних висот цього дерева та використовувати його для покращення того, як він розуміє інші регіони дерева», слайд читається разом з ілюстрацією різних життєвих «моментів» і «розділів» користувача.
Доповідачі навели ще один приклад визначення того, як один користувач нещодавно був на зустрічі класу. «Минуло рівно 10 років відтоді, як він закінчив навчання, і він сповнений облич, яких не бачив за 10 років, тож це, ймовірно, возз’єднання», — підсумувала команда у своїй презентації.
Команда також продемонструвала «Ellmann Chat» із описом: «Уявіть, що ви відкриваєте ChatGPT, але він уже знає все про ваше життя. Що б ви його запитали?»
Він показав зразок чату, в якому користувач запитує ”Чи є у мене домашня тварина?” На що він відповідає, що так, користувач має собаку, яка носила червоний плащ, а потім пропонує ім’я собаки та імена двох членів сім’ї, з якими її найчастіше бачать.
Іншим прикладом для чату був користувач, який запитав, коли його брат і сестра востаннє відвідували його. Інший попросив перерахувати міста, схожі на те, де вони живуть, оскільки вони думають переїхати. Еллманн запропонував відповіді на обидва.
Еллманн також представив короткий виклад харчових звичок користувача, інші слайди показали. «Ви, здається, любите італійську кухню. Є кілька фотографій пасти, а також фотографія піци». Також було сказано, що користувач, схоже, насолоджувався новою їжею, оскільки на одній із їхніх фотографій було меню зі стравою, яку він не впізнав.
Технологія також визначала, які продукти збирався придбати користувач, його інтереси, роботу та плани подорожей на основі скріншотів користувача, зазначено в презентації. Він також припустив, що зможе знати їхні улюблені веб-сайти та програми, наводячи приклади Google Docs, Reddit та Instagram.
Представник Google сказав CNBC: «Google Photos завжди використовував штучний інтелект, щоб допомагати людям шукати їхні фотографії та відео, і ми в захваті від потенціалу LLM, щоб отримати ще більше корисних можливостей. Це було раннє внутрішнє дослідження, і, як завжди, Якщо ми вирішимо розгорнути нові функції, ми витратимо час, щоб переконатися, що вони корисні людям і призначені для захисту конфіденційності та безпеки користувачів як наш пріоритет».
Запропонований проект Ellmann може допомогти Google у гонці озброєнь між технологічними гігантами, щоб створити більш персоналізовані життєві спогади.
Google Photos і Apple Photos роками обслуговували «спогади» та створювали альбоми на основі тенденцій у фотографіях.
У листопаді Google оголосив , що за допомогою штучного інтелекту Google Photos тепер може групувати схожі фотографії та організовувати знімки екрана в альбоми, які легко знайти.
У червні Apple оголосила, що її останнє оновлення програмного забезпечення включатиме можливість розпізнавання людей, собак і котів на фотографіях. Він уже сортує обличчя та дозволяє користувачам шукати їх за іменами.
Яблукотакож оголосила про майбутній додаток Journal, який використовуватиме вбудований штучний інтелект для створення персоналізованих пропозицій, які спонукатимуть користувачів писати уривки, які описуватимуть їхні спогади та досвід на основі останніх фотографій, місць, музики та тренувань.
Але Apple, Google та інші технологічні гіганти все ще борються зі складнощами належного відображення та ідентифікації зображень.
Наприклад, Apple і Google досі уникають позначення горил після того, як у звітах у 2015 році було виявлено, що компанія неправильно називає чорношкірих горилами. Розслідування New York Times цього року виявило, що програмне забезпечення Android від Apple і Google, яке лежить в основі більшості смартфонів у світі, вимкнуло можливість візуального пошуку приматів через страх позначити людину як тварину.
Компанії, включаючи Google, Facebookі Apple з часом додали елементи керування, щоб мінімізувати небажані спогади, але користувачі повідомили, що іноді вони все ще з’являються та вимагають від користувачів перемикатися між кількома налаштуваннями, щоб мінімізувати їх.