Компанія OpenAI звинуватила DeepSeek у крадіжці даних для навчання R1

Компанія виявила нові способи обходу захисту американських моделей штучного інтелекту.

Компанія OpenAI у службовій записці до Спеціального комітету Палати представників США з питань Китаю заявила, що її китайський конкурент DeepSeek застосовує “нечесні та дедалі складніші методи” для отримання результатів американських моделей штучного інтелекту. Йдеться про використання “дистиляції” для навчання чат-бота R1, якого запустили минулого року, на основі можливостей, розроблених у США. У Вашингтоні говорять про ризики для бізнесу та національної безпеки, пише Bloomberg.

У документі, з яким ознайомилося Bloomberg News, OpenAI зазначає, що DeepSeek застосовує так званий “метод дистиляції” в межах “постійних зусиль щодо незаконного використання можливостей, розроблених OpenAI та іншими передовими лабораторіями США”. Компанія також повідомила про “нові, заплутані методи”, спрямовані на обхід її захисту від неправомірного використання результатів моделей.

У процесі дистиляції одна модель ШІ використовує результати іншої для розвитку аналогічних можливостей. Як раніше повідомляв Bloomberg, після запуску R1 OpenAI розпочала внутрішнє розслідування разом із партнером Microsoft щодо можливого несанкціонованого доступу до її даних.

В OpenAI наголошують, що практика дистиляції, яку компанія пов’язує передусім із Китаєм, стає дедалі складнішою попри різні спроби блокувати порушників. За оцінками компанії, це становить загрозу для американських розробників, зокрема для Anthropic, які інвестували мільярди доларів в інфраструктуру та працюють за моделлю платної підписки.

Окремо OpenAI звернула увагу на ризики для національної безпеки. У компанії заявили, що чат-бот DeepSeek цензурує відповіді на теми, які китайська влада вважає чутливими, а копіювання моделей шляхом дистиляції може нівелювати вбудовані запобіжники та розширити можливості їх використання у високоризикових сферах, таких як біологія чи хімія.

Голова комітету Палати представників з питань Китаю, конгресмен-республіканець Джон Муленар, заявив: “Це частина політики КПК: красти, копіювати та знищувати”. Він додав, що китайські компанії продовжать використовувати американські моделі ШІ на свою користь.

Питання дистиляції порушував і радник Білого дому з питань штучного інтелекту Девід Сакс. Минулого року він заявляв, що існують “суттєві докази того, що DeepSeek тут витягла знання з моделей OpenAI”.

Дискусія активізувалася на тлі рішень адміністрації президента Дональд Трамп щодо послаблення обмежень на експорт чипів в Китай. Наприкінці минулого року дозволили продаж процесорів H200 виробництва Nvidia, які відстають приблизно на 18 місяців від новітньої лінійки Blackwell, що не постачається в КНР.

Після запуску R1 DeepSeek здійснив лише незначні оновлення, тоді як конкуренти в США та Китаї представили низку нових моделей. За даними Bloomberg, компанія також працює над агентною моделлю та планувала представити її наприкінці 2025 року.

Влада США окремо розслідує, чи обходила DeepSeek експортний контроль, закуповуючи чипи через Сінгапур. Згідно з матеріалами комітету Палати представників, Nvidia надавала технічну підтримку DeepSeek для вдосконалення моделі R1. Базова модель DeepSeek-V3 потребувала 2,8 млн годин роботи на графічних процесорах H800, продаж яких до Китаю згодом призупинили.

Водночас DeepSeek перебуває під міжнародними санкціями та обмеженнями через занепокоєння щодо національної безпеки та конфіденційності даних, які зберігаються на серверах у КНР. Уряди США, Австралії, Тайваню та низки країн ЄС заборонили використання сервісу в держустановах або ініціювали розслідування його діяльності.