OpenAI записав текстом понад мільйон годин відео YouTube для навчання GPT-4

Дмитро Сизов
OpenAI записав текстом понад мільйон годин відео YouTube для навчання GPT-4

 The Wall Street Journal повідомила , що компанії зі штучним інтелектом стикаються зі стіною, коли справа доходить до збору високоякісних навчальних даних. Сьогодні The New York Times детально описала деякі способи, як компанії впоралися з цим. Не дивно, що це передбачає дії, які потрапляють у туманну сіру зону закону про авторське право на ШІ .

Розповідь починається на OpenAI, який, відчайдушно потребуючи навчальних даних, як повідомляється, розробив свою модель аудіотранскрипції Whisper, щоб подолати горб, транскрибував понад мільйон годин відео YouTube для навчання GPT-4, своєї найдосконалішої моделі великої мови. Про це повідомляє The New York Times , яка повідомляє, що компанія знала, що це юридично сумнівно, але вважала це добросовісним використанням. Президент OpenAI Грег Брокман особисто брав участь у зборі відео, які були використані, пише Times .

Прессекретар OpenAI Ліндсей Хелд повідомила The Verge в електронному листі, що компанія курує «унікальні» набори даних для кожної зі своїх моделей, щоб «допомогти їм зрозуміти світ» і підтримувати конкурентоспроможність у глобальних дослідженнях. Хелд додав, що компанія використовує «численні джерела, включаючи загальнодоступні дані та партнерства для непублічних даних», і що вона шукає можливість генерувати власні синтетичні дані.

У статті Times йдеться, що компанія вичерпала запаси корисних даних у 2021 році та обговорювала транскрипцію відео YouTube, подкастів і аудіокниг після перегляду інших ресурсів. До того часу він навчив свої моделі на даних, які включали комп’ютерний код із Github, бази даних ходів у шахах і вміст шкільних завдань із Quizlet.

Представник Google Метт Брайант повідомив The Verge в електронному листі, що компанія «бачила непідтверджені звіти» про діяльність OpenAI, додавши, що «і наші файли robots.txt, і Умови використання забороняють несанкціоноване копіювання або завантаження вмісту YouTube», повторюючи умови компанії використовувати . Генеральний директор YouTube Ніл Мохан сказав подібні речі про можливість того, що OpenAI використовував YouTube для навчання своєї моделі створення відео Sora цього тижня. Брайант сказав, що Google вживає «технічних і юридичних заходів», щоб запобігти такому несанкціонованому використанню, «якщо у нас є для цього чітка правова або технічна підстава».

Згідно з джерелами Times , Google також зібрав стенограми з YouTube . Браянт сказав, що компанія навчила своїх моделей «деякому контенту YouTube відповідно до наших угод із творцями YouTube».

The Times пише, що юридичний відділ Google попросив групу з питань конфіденційності компанії налаштувати мову політики, щоб розширити те, що вона може робити з даними споживачів, такими як офісні інструменти, такі як Google Docs. Повідомляється, що нова політика була навмисно оприлюднена 1 липня, щоб відвернутися від святкових вихідних на День Незалежності.

Meta також зіткнулася з обмеженнями доступності хороших навчальних даних, і в записах, які почула Times , її команда AI обговорювала недозволене використання захищених авторським правом творів, працюючи над тим, щоб наздогнати OpenAI. Після перегляду «майже доступних англомовних книг, есе, віршів і новинних статей в Інтернеті» компанія, очевидно, розглядала такі кроки, як оплата ліцензій на книги або навіть пряма покупка великого видавництва. Очевидно, вона також була обмежена у способах використання споживчих даних через зміни, спрямовані на конфіденційність, які вона зробила після скандалу з Cambridge Analytica .

Google, OpenAI та ширший навчальний світ штучного інтелекту борються із швидко випаровуваними навчальними даними для своїх моделей, які стають кращими, чим більше даних вони поглинають. Журнал цього тижня писав, що компанії можуть випередити новий контент до 2028 року.

Можливі розв'язання цієї проблеми, згадані Журналом у понеділок, включають навчальні моделі на «синтетичних» даних, створених їхніми власними моделями, або так зване «навчання за програмою», яке передбачає передачу моделям високоякісних даних у впорядкованому порядку в надії, що вони зможуть встановлюйте «розумніші зв’язки між поняттями», використовуючи набагато менше інформації, але жоден підхід ще не перевірений. Але інший варіант компаній полягає в тому, щоб використовувати все, що вони можуть знайти, незалежно від того, є у них дозвіл чи ні, і, виходячи з кількох позовів, поданих за останній рік або близько того такий спосіб, скажімо так, більш ніж небезпечний.