Стартап Ideogram створює текст на зображеннях штучного інтелекту

Дмитро Сизов

Новий стартап зі штучного інтелекту кидає виклик більш визнаним конкурентам - дозволяючи користувачам створювати зображення з текстом, який можна прочитати.

003-1x-1.jpg (77 KB)

Як і його аналоги, Ideogram може створювати напрочуд реалістичні зображення з коротких текстових підказок за лічені секунди. Але Ideogram, стартап із Торонто, який був запущений у серпні, також може піти далі й відобразити текст у цих зображеннях. Він може створити зображення протестувальника, який тримає розбірливий знак або милого кота у футболці з чітким написом: «Запитайте мене про мій стартап ШІ». Вирішення того, що може здатися нішевою технічною проблемою, має широкі наслідки для галузі. Коли інші популярні генератори зображень штучного інтелекту, такі як Midjourney, Dall-E 2 від OpenAI і Stable Diffusion від Stability AI, часто показують нісенітницю, коли їх просять відобразити слова в малюнках.

Запуск Ideogram має потенціал сколихнути все більш переповнене поле генераторів зображень штучного інтелекту, а також вказує на наступний етап цієї технології, що швидко вдосконалюється. Нова версія Dall-E , яку планує розгорнути OpenAI у жовтні та наразі доступна через Microsoft Bing Image Creator , виглядає так само здатною. OpenAI опублікував зображення, на якому показано пацієнта з авокадо без кісточки, який каже терапевту з використанням ложок: «У мене просто так порожньо всередині». Штучний інтелект стабільності також може представляти текст на зображеннях за допомогою програмного забезпечення під назвою DeepFloyd IF , але воно нелегко доступне для більшості людей.

До команди Ideogram входять кілька колишніх співробітників Google, які допомогли створити сервіс генерації зображень технічного гіганта Imagen . Стартап, який залучив 16,5 мільйонів доларів початкового фінансування під час раунду під керівництвом Andreessen Horowitz та Index Ventures, зосереджений не лише на створенні зображень із текстом. Ideogram також намагається зробити його більш доступним для будь-кого, щоб використовувати штучний інтелект для створення переконливих зображень, не вводячи складних описів, які породили фразу «швидка інженерія».

«Наша мета — зробити так, щоб людям було якомога легше та якомога простіше брати участь у творчому самовираженні», — сказав Bloomberg News головний виконавчий директор і співзасновник Мохаммад Норузі. Норузі сказав, що 1,1 мільйона людей зареєструвалися на безкоштовному сервісі з моменту його запуску, створивши понад 80 мільйонів зображень (новим користувачам, можливо, доведеться зареєструватися в списку очікування). Користувачі вводять свої команди для програмного забезпечення на веб-сайті Ideogram, і сервіс у відповідь створює чотири зображення одночасно.

Завдяки своїм функціям Ideogram може з часом конкурувати за бізнес із маркетологами та творчими професіоналами. Однак, виробляючи текст і полегшуючи створення всіх видів зображень за допомогою ШІ, стартап також ризикує бути використаним для поширення дезінформації, що ще більше підриває довіру до зображень в Інтернеті.

Знадобилася лише мить, щоб створити достатньо реалістичне зображення Альберта Ейнштейна, який тримає табличку з написом «Запитай мене про що завгодно» — схоже на зображення, яке люди публікують як доказ своєї особи під час сеансу запитань і відповідей на Reddit. Неважко уявити, щоб зробити те саме з живою публічною особою.