New York Times хакнув ChatGPT для отримання доказів позову

Дмитро Сизов 27 февраля 2024 22:09

OpenAI попросив суддю відхилити частини The New York Times«позов проти неї, стверджуючи, що медіакомпанія «заплатила комусь за злом продуктів OpenAI», таких як ChatGPT, щоб отримати 100 прикладів порушення авторських прав для своєї справи.

У заяві, поданій у понеділок до федерального суду Манхеттена, OpenAI стверджувала , що Times знадобилися «десятки тисяч спроб, щоб отримати вкрай аномальні результати», і що компанія зробила це за допомогою «оманливих підказок, які явно порушують умови використання OpenAI».

«Звичайні люди не користуються продуктами OpenAI таким чином», — пише OpenAI у заяві.

«Злом», про який OpenAI стверджує в заяві, також можна назвати «оперативним проектуванням» або «red-teaming», поширеним способом для команд з питань довіри та безпеки штучного інтелекту, фахівців з етики, науковців і технологічних компаній «стрес-тестувати» системи ШІ на вразливості. . Це поширена практика в індустрії штучного інтелекту та популярний спосіб попередити компанії про проблеми в їхніх системах, подібно до того, як фахівці з кібербезпеки перевіряють веб-сайти компаній на слабкі місця.

The New York Times не відразу відповіла на запит CNBC про коментар.

Подання подається в той час, коли між OpenAI і видавцями, авторами та художниками розгорається ширша боротьба за використання матеріалів, захищених авторським правом, для навчальних даних штучного інтелекту, включаючи резонансний позов Times, який деякі вважають переломним моментом для галузі. Позов новинного видання, поданий у грудні, намагається затримати Microsoftі OpenAI відповідає за збитки на мільярди доларів.

У минулому OpenAI заявляв, що «неможливо» навчати кращих моделей ШІ без робіт, захищених авторським правом.

«Оскільки сьогодні авторське право охоплює практично будь-який вид людського вираження, включаючи дописи в блогах, фотографії, дописи на форумах, уривки коду програмного забезпечення та державні документи, було б неможливо навчити сучасні провідні моделі штучного інтелекту без використання захищених авторським правом матеріалів», — написав OpenAI у подано минулого місяця у Великобританії у відповідь на запит Палати лордів Великобританії.

«Обмеження навчальних даних загальнодоступними книгами та малюнками, створеними більше століття тому, може дати цікавий експеримент, але не забезпечить системи штучного інтелекту, які відповідають потребам сучасних громадян», — продовжив OpenAI у заяві.

Нещодавно минулого місяця в Давосі, Швейцарія, генеральний директор OpenAI Сем Альтман сказав, що був «здивований» позовом Times, заявивши, що моделям OpenAI не потрібно навчатися на даних видавця.

«Нам насправді не потрібно тренуватися на їхніх даних», — сказав Альтман на заході , організованому Bloomberg у Давосі. «Мені здається, що це те, чого люди не розуміють. Будь-яке конкретне джерело навчання не надто впливає на нас».

Хоча один видавець може не вплинути на робочі можливості ChatGPT, дані OpenAI припускають, що рішення багатьох видавців відмовитися від участі може вплинути. В останні місяці компанія почала залицятися до видавців, щоб вони дозволили використовувати контент для навчальних даних.

Компанія вже уклала угоди з Axel Springer, німецьким медіа-конгломератом, який володіє Business Insider, Morning Brew та іншими виданнями, а також, як повідомляється, веде переговори з CNN, Fox Corp. і Time щодо ліцензування їхньої роботи.

«Ми очікуємо, що наші поточні переговори з іншими невдовзі приведуть до нових партнерських відносин», — написав OpenAI у заяві.

У заяві та своїх публікаціях у блозі OpenAI висвітлив процес відмови для видавців, який дозволяє торговим точкам забороняти веб-сканеру компанії доступ до їхніх веб-сайтів. Але в документі OpenAI стверджує, що вміст життєво важливий для навчання сучасних моделей ШІ.

«Хоча ми з нетерпінням чекаємо продовження розробки додаткових механізмів, які дозволять правовласникам відмовитися від навчання, ми активно співпрацюємо з ними, щоб знайти взаємовигідні домовленості для отримання доступу до матеріалів, які інакше недоступні, а також відображати вміст у спосіб, який виходити за межі того, що дозволяє закон про авторське право”, - написала компанія.