Adobe зазнала колективного позову у зловживанні роботою авторів при навчанні штучного інтелекту

Дмитро Сизов

Як і майже будь-яка інша технологічна компанія, Adobe протягом останніх кількох років значною мірою спиралася на штучний інтелект. З 2023 року компанія-розробник програмного забезпечення запустила низку різних сервісів на основі штучного інтелекту, включаючи Firefly — свій пакет засобів генерації медіаконтенту на базі штучного інтелекту. Однак тепер повне використання компанією цієї технології могло призвести до проблем, оскільки в новому позові стверджується, що вона використовувала піратські книги для навчання однієї зі своїх моделей штучного інтелекту.

У запропонованому колективному позові, поданому від імені Елізабет Ліон, авторки з Орегону, стверджується, що Adobe використовувала піратські версії численних книг, включаючи її власні, для навчання програми SlimLM компанії .

Adobe описує SlimLM як невелику серію мовних моделей, яку можна «оптимізувати для завдань допомоги з документами на мобільних пристроях». У ній зазначається, що SlimLM було попередньо навчено на SlimPajama-627B, «дедуплікованому, багатокорпусному наборі даних з відкритим кодом», випущеному Cerebras у червні 2023 року. Ліон, яка написала низку посібників з написання нехудожньої літератури, каже, що деякі з її робіт були включені до набору даних для попереднього навчання, який використовувала Adobe.

У позові Лайон, про який спочатку повідомляло агентство Reuters, йдеться, що її текст був включений до обробленої підмножини маніпульованого набору даних, який був основою програми Adobe: «Набір даних SlimPajama був створений шляхом копіювання та маніпулювання набором даних RedPajama (включаючи копіювання Books3)», – йдеться в позові. «Таким чином, оскільки це похідна копія набору даних RedPajama, SlimPajama містить набір даних Books3, включаючи захищені авторським правом твори позивача та членів групи».

«Books3» — величезна колекція з 191 000 книг , які використовувалися для навчання систем GenAI, — постійно є джерелом юридичних проблем для технологічної спільноти. RedPajama також фігурує в низці судових позовів. У вересні в позові проти Apple стверджувалося, що компанія використовувала матеріали, захищені авторським правом, для навчання своєї моделі Apple Intelligence . У позові згадувався набір даних і технологічну компанію звинувачували в копіюванні захищених творів «без згоди та без зазначення авторства чи компенсації». У жовтні в аналогічному позові проти Salesforce також стверджувалося, що компанія використовувала RedPajama для навчальних цілей. 

На жаль для технологічної галузі, такі судові позови вже стали досить поширеним явищем. Алгоритми штучного інтелекту навчаються на величезних наборах даних, і в деяких випадках ці набори даних нібито містили піратські матеріали. У вересні Anthropic погодилася виплатити 1,5 мільярда доларів кільком авторам, які подали на неї до суду та звинуватили у використанні піратських версій своїх робіт для навчання свого чат-бота Claude. Цю справу вважали потенційним поворотним моментом у триваючих судових тяжбах щодо матеріалів, захищених авторським правом, у даних для навчання штучного інтелекту, яких існує чимало.