Apple випустила власний ШІ, який вміє розуміти і редагувати зображення, як людина
Дослідники Apple представили оновлену версію моделі UniGen - UniGen-1.5, здатну одночасно розуміти, генерувати і редагувати зображення в рамках єдиної системи.
Про це повідомляє РБК-Україна з посиланням на профільний ресурс 9to5Mac.
Від UniGen до UniGen-1.5
У травні минулого року команда Apple опублікувала дослідження під назвою UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. У ньому вперше було представлено єдину мультимодальну велику мовну модель, яка об'єднує розуміння і генерацію зображень, не розділяючи ці завдання на окремі системи.
Тепер Apple опублікувала продовження дослідження - статтю про UniGen-1.5.
Що нового в UniGen-1.5
UniGen-1.5 розширює можливості оригінальної моделі, додаючи функції редагування зображень, зберігаючи при цьому єдину архітектуру для розуміння, генерації та редагування.
Створення такої універсальної системи - непросте завдання, оскільки розуміння і генерація зображень вимагають різних підходів. Проте, дослідники стверджують, що єдина модель може використовувати свої здібності до розуміння для поліпшення генерації.
Однією з ключових проблем редагування зображень є те, що моделі часто складно коректно інтерпретувати складні інструкції, особливо якщо зміни тонкі або специфічні.
Для вирішення цього завдання в UniGen-1.5 введено новий етап - Edit Instruction Alignment: дослідники навчають модель формувати докладний текстовий опис того, яким має бути відредаговане зображення. Цей проміжний крок допомагає моделі краще "зрозуміти" завдання до генерації фінального результату.
Єдина система нагород
Ключовим внеском UniGen-1.5 стало використання однієї й тієї самої системи нагород для генерації та редагування зображень. Раніше це було проблемою, оскільки редагування може включати як невеликі зміни, так і повні трансформації.
Обмеження
Однак дослідники зазначають, що UniGen-1.5 поки що зазнає труднощів із генерацією тексту і підтриманням ідентичності об'єктів:
- модель не завжди коректно відображає текст на зображеннях через обмеження легкого детокенізатора
- іноді помітні зміни в деталях зовнішності об'єктів, наприклад текстури шерсті кішки або кольору пір'я птаха.
Дослідники підкреслюють, що модель потребує подальшого доопрацювання для усунення цих обмежень.
Источник: rbc.ua