Виявилося, що нова модель зображень 2.0 у ChatGPT добре генерує текст

Дмитро Сизов

Раніше було досить легко розрізнити зображення, створені людиною, та зображення, згенеровані штучним інтелектом — лише два роки тому неможливо було використовувати моделі зображень для створення меню мексиканського ресторану, не винаходячи нових кулінарних шедеврів, таких як «енчуіта», «чурірос», «бурро» та «маргартас».

Тепер, коли я прошу у нової моделі ChatGPT Images 2.0 меню мексиканської їжі, вона створює щось, що можна одразу використовувати в ресторані, і клієнти не помічають, що щось не так. (Однак, севіче вартістю $13,50 може змусити мене засумніватися в якості риби.)

Автори зображень: ChatGPT Images 2.0

Для порівняння, ось результат, який я отримав з DALL-E 3 два роки тому (на той час ChatGPT не генерував зображення):

Автори зображень: Microsoft Designer (DALL-E 3)

Генератори зображень на основі штучного інтелекту традиційно мали труднощі з написанням орфографії, оскільки вони зазвичай використовували моделі дифузії, які працюють шляхом реконструкції зображень із шуму.

«Моделі дифузії […] реконструюють задані вхідні дані», – сказав Асмелаш Тека Хадгу, засновник і генеральний директор Lesan AI, TechCrunch у 2024 році. «Ми можемо припустити, що написи на зображенні – це дуже, дуже крихітна частина, тому генератор зображень вивчає візерунки, які покривають більше цих пікселів».

Відтоді дослідники досліджували інші механізми генерації зображень, такі як авторегресивні моделі , які роблять прогнози щодо того, як має виглядати зображення, та функціонують більше як LLM.

На жаль, OpenAI відмовився відповісти на запитання прес-конференції цього тижня про те, яка саме модель працює на ChatGPT Images 2.0.

Однак компанія пояснила, що нова модель має «можливості мислення», які дають їй можливість шукати в Інтернеті, створювати кілька зображень з одного запиту та перевіряти свої творіння ще раз — це дозволяє Images 2.0 створювати маркетингові матеріали різних розмірів, а також багатопанельні комікси.

OpenAI також стверджує, що Images краще розуміє відображення нелатинського тексту такими мовами, як японська, корейська, хінді та бенгальська. Обсяг знань моделі припиняється у грудні 2025 року, що може вплинути на точність генерації певних підказок щодо останніх новин.

«Images 2.0 забезпечує безпрецедентний рівень специфічністі та точності у створенні зображень. Він може не лише концептуалізувати складніші зображення, але й ефективно втілювати це бачення в життя, здатний дотримуватися інструкцій, зберігати запитувані деталі та відображати дрібнозернисті елементи, які часто порушують моделі зображень: дрібний текст, іконографію, елементи інтерфейсу користувача, щільні композиції та тонкі стилістичні обмеження, і все це з роздільною здатністю до 2K», – йдеться у прес-релізі OpenAI.

Ці можливості означають, що генерація зображень не така швидка, як введення запитання в ChatGPT, але створення чогось складного, як-от багатопанельний комікс, все одно займає лише кілька хвилин.

Усі користувачі ChatGPT та Codex зможуть отримати доступ до Images 2.0, починаючи з вівторка; платні користувачі зможуть створювати розширені результати. Компанія також надасть доступ до API gpt-image-2 , ціна якого залежатиме від якості та роздільної здатності результатів.