Дослідники штучного інтелекту стурбовані «колапсом моделі»
У певних куточках технологічної індустрії вірять, що навчання систем штучного інтелекту на великих обсягах онлайн-даних дозволить цим інструментам з часом ставати кращими — можливо, настільки, що вони перевершать людей у певних завданнях.
Але нова дослідницька стаття ставить під сумнів цей підхід і викликає тривогу щодо того, що може бути фатальним недоліком у розробці систем ШІ.
У статті, опублікованій у журналі Nature у липні, дослідники виявили, що коли моделі штучного інтелекту навчаються на даних, які включають контент, створений штучним інтелектом (що, ймовірно, буде все більш поширеним), вони в кінцевому підсумку призводять до погіршення продуктивності, явища, яке називають «колапсом моделі».
Отримані висновки посилюють скептицизм щодо довгострокової траєкторії розвитку штучного інтелекту та з’являються в той час, коли Уолл-стріт уже сумнівається, чи окупляться величезні інвестиції Big Tech у розробку штучного інтелекту.
Що таке колапс моделі?
Чат-боти зі штучним інтелектом, такі як ChatGPT, працюють на основі великих мовних моделей , навчених на майже неймовірній кількості даних ( трильйони слів , у деяких випадках), отриманих із веб-сторінок, статей, розділів коментарів тощо. Завдяки цим величезним наборам даних компанії зі штучним інтелектом змогли створювати продукти, які можуть видавати надзвичайно актуальні відповіді на запити користувачів.
Але деякі дослідники штучного інтелекту висловлюють занепокоєння, що ці моделі з часом стануть значно менш точними та «зруйнуються», якщо їх навчати на контенті, створеному штучним інтелектом, а не реальними людьми. Одна стаття 2023 року про крах моделі показала, що ШІ-зображення людей дедалі більше спотворювалися після того, як модель перенавчалася на «навіть невеликих кількостях їх власного творіння». Дослідники порівняли це явище з системою штучного інтелекту, «отруєною» власною роботою.
Що виявила нова стаття?
У новій статті Nature дослідники з Оксфордського, Кембриджського та інших університетів виявили, що моделі ШІ, навчені за допомогою контенту, створеного ШІ, дають ненавмисні та потенційно безглузді результати. Як пояснили дослідники , помилки однієї моделі посилюються наступною, відштовхуючи штучний інтелект ще далі від реальності, поки підказки, по суті, не дають тарабарщини.
В одному прикладі автори показали, що підказка про історичну британську архітектуру переросла в незрозумілу дискусію про кроликів, коли вона була введена у велику мовну модель, яку кілька разів перенавчали за допомогою контенту, створеного ШІ.
«Ми демонструємо, що [згортання моделі] потрібно сприймати серйозно, якщо ми хочемо зберегти переваги навчання на основі великомасштабних даних, зібраних з Інтернету», — пишуть дослідники в дослідженні.
Наскільки великий ризик краху моделі?
Незважаючи на те, що колапс моделі в основному залишається теоретичним занепокоєнням, у статті Nature зазначається, що майбутні моделі штучного інтелекту «неминуче навчатимуться на даних, створених їхніми попередниками», оскільки створені штучним інтелектом тексти та зображення поширюються в Інтернеті та проникають у набори даних онлайн.
Технічні компанії, зокрема Meta , Google і Anthropic , також експериментували з моделями навчання на так званих «синтетичних» даних, які вони створювали за допомогою генеративного штучного інтелекту. Теоретично, синтетичний варіант допомагає компаніям зі штучним інтелектом задовольнити безмежну потребу в даних, уникаючи при цьому юридичних, етичних і пов’язаних з конфіденційністю проблем, пов’язаних зі збиранням інформації з різних веб-сайтів. Але перспектива колапсу моделі може перешкодити цим планам.
Чи є виправлення?
Висновки, опубліковані в документі, можуть лише посилити терміновість для компаній зі штучним інтелектом щодо забезпечення доступу до високоякісних даних, створених людиною, але це може коштувати дорого. Розробник ChatGPT OpenAI витратив мільйони доларів на встановлення партнерських відносин із такими видавцями, як News Corp. і Axel Springer SE, щоб отримати ліцензію на їхній контент для навчання своїх моделей. Також незрозуміло, чи достатньо цих даних для задоволення потреб технологічних компаній.
На думку дослідників, для розробників штучного інтелекту життєво важливо зберегти доступ до оригінальних навчальних даних, які не були забруднені вмістом ШІ. Але немає простого способу масштабного відстеження контенту, створеного ШІ. З цією метою дослідники припускають, що ті, хто створює моделі штучного інтелекту, повинні працювати над «координацією в масштабах спільноти», щоб зрозуміти походження даних, які вони сканують онлайн.