Таємний список сайтів, який стоїть за масивом даних ChatGPT — колонка The Washington Post

9 июня 2026 12:45

Технологічні компанії люблять говорити про можливості штучного інтелекту, але значно рідше — про джерела його знань. Хоча саме навчальні дані визначають, що ШІ вважає фактом, яку інформацію повторює та які упередження може успадкувати.

The Washington Post разом із дослідниками штучного інтелекту проаналізувала один із найвідоміших датасетів, на яких навчали великі мовні моделі. Результат виявився значно дивнішим за звичну картину з енциклопедій і наукових статей: серед джерел опинилися піратські сайти, форуми, особисті блоги, політична пропаганда та тисячі сторінок із контентом, який фільтри мали б відсіяти.

За останні чотири місяці ШІ-чат-боти пережили справжній вибух популярності, вразивши публіку своїми неабиякими здібностями: від написання складних курсових робіт до ведення напрочуд осмислених, майже моторошних діалогів.

Однак чат-боти не мислять як люди, і вони насправді не розуміють того, що кажуть. Вони здатні імітувати людське мовлення, бо штучний інтелект, який лежить в їхній основі, поглинув гігантські обсяги тексту, здебільшого зібраного з інтернету.

Саме цей текст є головним джерелом знань ШІ про світ у процесі його створення, і саме він впливає на те, як система відповідає користувачам. Наприклад, якщо ШІ успішно складає вступний тест до юридичної школи, то, найімовірніше, це тому, що в його навчальних даних були тисячі сайтів із практичними завданнями для такого тесту LSAT.

Технологічні компанії дедалі ретельніше приховують, чим саме вони наповнюють свої ШІ-системи. Тож The Washington Post вирішила дослідити один із цих наборів даних і докладно показати, які типи закритих, персональних, а часто й образливих сайтів використовуються для навчання ШІ.

Щоб зазирнути всередину цієї «чорної скриньки», ми проаналізували набір даних Google C4, масштабний зріз контенту 15 млн вебсайтів, який використовували для навчання кількох відомих англомовних систем ШІ, так званих великих мовних моделей, зокрема Google T5 і Facebook LLaMA. OpenAI не розкриває, які набори даних використовує для навчання моделей, що лежать в основі її популярного чат-бота ChatGPT.

У межах цього дослідження The Post працювала з дослідниками з Інституту штучного інтелекту Пола Аллена (AI2) та класифікувала сайти за допомогою даних Similarweb, компанії, що займається вебаналітикою. Приблизно третину сайтів не вдалося додати до жодної категорії, здебільшого тому, що вони вже зникли з інтернету. Їх у матеріалі не показано.

Потім ми склали рейтинг решти 10 млн вебсайтів залежно від того, скільки «токенів» кожен із них дав цьому набору даних. Токени — це невеликі фрагменти тексту, що використовуються для обробки неструктурованої інформації, зазвичай це слово або словосполучення.

Від Wikipedia до Wowhead

У цьому наборі даних домінували вебсайти з таких галузей, як журналістика, розваги, розробка програмного забезпечення, медицина та створення контенту. Це частково пояснює, чому саме ці сфери можуть опинитися під загрозою через нову хвилю штучного інтелекту. Трьома найбільшими сайтами були:

patents.google.com — № 1 у списку, що містить тексти патентів, виданих у різних країнах світу;
wikipedia.org — № 2, безплатна онлайн-енциклопедія;
та scribd.com — № 3, цифрова бібліотека за підпискою.

Високо в списку опинився і b-ok.org — № 190, сумнозвісний майданчик піратських електронних книжок, який згодом був конфіскований Міністерством юстиції США. У наборі даних також було виявлено щонайменше 27 інших сайтів, які уряд США визначив як майданчики для піратства та продажу контрафактної продукції.

Деякі сайти у верхній частині списку здавалися доволі випадковими: наприклад, wowhead.com — № 181, форум гравців World of Warcraft, thriveglobal.com — № 175, платформа для боротьби з вигоранням, заснована Аріанною Хаффінгтон, а також щонайменше 10 сайтів із продажу сміттєвих контейнерів, зокрема dumpsteroid.com — № 183, які нині, схоже, вже недоступні.

Інші сайти викликали серйозні занепокоєння щодо приватності. Два сайти, що увійшли до першої сотні, — coloradovoters.info під № 40 та flvoters.com під № 73 — мали приватно розміщені копії баз даних реєстрації виборців на рівні штатів. Хоча дані виборців є публічними, моделі можуть використовувати цю персональну інформацію у невідомий спосіб.

Найбільшою категорією стали бізнесові та промислові вебсайти (на них припадало 16 % класифікованих токенів). Очолював її fool.com під № 13, сайт з інвестиційними порадами. Неподалік був kickstarter.com під № 25, платформа, що дозволяє користувачам збирати кошти на творчі проєкти, а нижче у списку patreon.com під № 2 398, який допомагає авторам отримувати щомісячні внески від підписників за ексклюзивний контент.

Kickstarter і Patreon можуть давати ШІ доступ до творчих ідей та маркетингових матеріалів авторів, що посилює занепокоєння з приводу того, що у своїх підказках користувачам технологія може копіювати їхню роботу. Наразі митці не отримують ані компенсації, ані згадки, коли їхні роботи потрапляють до навчальних даних ШІ. Вони вже подали позови про порушення авторських прав проти генераторів зображень за текстовими запитами — Stable Diffusion, MidJourney і DeviantArt.

Аналіз The Post свідчить, що попереду можуть бути нові юридичні виклики. Символ авторського права, який позначає твір, зареєстрований як інтелектуальна власність, трапляється в наборі даних C4 понад 200 млн разів.

Усі новини

Категорія «Новини та медіа» посідає третє місце серед усіх категорій. Однак половина сайтів із першої десятки загального рейтингу — це новинні видання: nytimes.com під № 4, latimes.com під № 6, theguardian.com під № 7, forbes.com під № 8 і huffpost.com під № 9. Washingtonpost.com під № 11 також був зовсім поруч. Як і митці та автори контенту, деякі новинні організації критикують технологічні компанії за використання їхніх матеріалів без дозволу чи компенсації.

Водночас ми виявили кілька медіа, які мають низькі позиції за незалежною шкалою довіри NewsGuard: RT.com під № 65 — російський державний пропагандистський сайт; breitbart.com під № 159 — добре відоме джерело ультраправих новин і коментарів; а також vdare.com під № 993 — антиімміграційний сайт, який пов’язували з ідеями переваги білих.

Дослідження вже показували, що чат-боти можуть упевнено поширювати неправдиву інформацію, але не завжди наводять джерела. Ненадійні навчальні дані можуть призвести до того, що система поширюватиме упередження, пропаганду й дезінформацію, причому користувач не зможе простежити їх до першоджерела.

Релігійні сайти відображають західну перспективу

Сайти, присвячені спільнотам, становили близько 5 % класифікованого контенту, і в цій категорії домінувала релігійна тематика. Серед 20 найпопулярніших релігійних сайтів 14 були християнськими, два — юдейськими, один — мусульманським, один — мормонським, один — сайтом Свідків Єгови, а ще один був присвячений усім релігіям.

Найпопулярніший християнський сайт, Grace to You (gty.org, № 164), належить Grace Community Church — євангельській мегацеркві в Каліфорнії. Нещодавно Christianity Today повідомляв, що церква радила жінкам «і далі підкорятися» батькам і чоловікам, які вдавалися до насильства, і не звертатися до органів влади.

Найвище серед юдейських сайтів опинився jewishworldreview.com під № 366 — онлайн-журнал для ортодоксальних юдеїв. У грудні сайт опублікував статтю про Хануку, де причинами зростання антисемітизму у США називалися «ультраправі, фундаменталістський іслам», а також «афроамериканська спільнота, на яку вплинув рух Black Lives Matter».

Антимусульманська упередженість уже проявлялася як проблема в деяких мовних моделях. Наприклад, дослідження, опубліковане в журналі Nature, показало, що модель ChatGPT-3 від OpenAI у 66 відсотках випадків завершувала фразу «Двоє мусульман зайшли до…» діями насильницького характеру.

Скарбниця особистих блогів

Технології — це друга за розміром категорія, на неї припадає 15 % класифікованих токенів. Сюди входить чимало платформ для створення сайтів, зокрема sites.google.com під № 85, де розміщуються сторінки найрізноманітнішого змісту, від клубу дзюдо в Редінгу, Англія, до католицького дошкільного закладу в Нью-Джерсі.

Набір даних містив понад пів мільйона особистих блогів, які становили 3,8 % класифікованих токенів. Видавнича платформа medium.com під № 46 була п’ятим за розміром технологічним сайтом, яка розміщує десятки тисяч блогів у своєму домені. Наш підрахунок також охоплює блоги, створені на таких платформах, як WordPress, Tumblr, Blogspot і LiveJournal.

Ці онлайн-щоденники варіювалися від професійних до глибоко особистих. Наприклад, блог Grumpy Rumblings ведуть двоє анонімних науковців: один із них нещодавно писав про те, як безробіття партнера вплинуло на податки їхньої пари. Один із найпопулярніших блогів містив рекомендації щодо рольових ігор у реальному просторі, з живою участю гравців. Інший сайт із верхніх позицій, Uprooted Palestinians, часто пише про «сіоністський тероризм» і «сіоністську ідеологію».

Соціальні мережі на зразок Facebook і Х — одна з центральних частин сучасного інтернету — забороняють скрейпінг, через що більшість даних, на яких навчають ШІ, не охоплює їхній контент. Технологічні гіганти на кшталт Facebook і Google, які мають у своєму розпорядженні колосальні масиви розмовних даних, не пояснюють чітко, як саме персональна інформація користувачів може використовуватися для навчання ШІ-моделей, що працюють усередині компаній або продаються як продукти.

Що пропустили фільтри

Як і більшість компаній, Google ретельно фільтрувала дані, перш ніж передавати їх ШІ (C4 розшифровується як Colossal Clean Crawled Corpus — «масштабний корпус відфільтрованих вебданих»). Окрім видалення беззмістовного та дубльованого тексту, компанія використала відкрите джерело «Перелік брудних, непристойних, нецензурних та інших небажаних слів», що містить 402 англійські терміни й один емодзі (жест рукою з поширеним, але непристойним значенням). Зазвичай компанії використовують високоякісні набори даних для донавчання моделей, захищаючи користувачів від частини небажаного контенту.

Хоча такі «чорні списки» мають обмежити контакт моделі з расистськими образами та нецензурною лексикою під час навчання, дослідження показували, що вони також відсіюють частину ЛГБТК-контенту несексуального характеру. І, як засвідчили попередні дослідження, дуже багато все одно проходить крізь фільтри. Ми знайшли сотні прикладів порнографічних сайтів і понад 72 000 випадків уживання слова swastika — одного із заборонених термінів у цьому списку.

Водночас The Post виявила, що фільтри не прибрали частину тривожного контенту, зокрема сайт прихильників переваги білих stormfront.org під № 27 505, антитрансгендерний сайт kiwifarms.net під № 378 986 і 4chan.org під № 4 339 889 — анонімний форум, який пов’язують з організацією цілеспрямованих кампаній переслідування конкретних осіб.

Ми також знайшли threepercentpatriots.com під № 8 788 836 (вже недоступний сайт), що просував антиурядову ідеологію, яку поділяли люди, обвинувачені у зв’язку з нападом на Капітолій США 6 січня 2021 року. У наборі також були сайти, що поширювали теорії змови, зокрема ультраправий феномен QAnon і pizzagate, неправдиве твердження про те, що піцерія у Вашингтоні нібито була прикриттям для педофілів.

Чи навчає ваш сайт штучний інтелект

Вебсканування може звучати як копія всього інтернету, але насправді це лише зріз, фіксація контенту з вибірки вебсторінок у певний момент часу. C4 почався як скрейп (автоматизований збір даних), виконаний у квітні 2019 року неприбутковою організацією CommonCrawl, популярним ресурсом для моделей ШІ. CommonCrawl повідомила The Post, що намагається надавати пріоритет найважливішим і найавторитетнішим сайтам, але не ставить собі за мету уникати ліцензованого чи захищеного авторським правом контенту.

Хоча C4 — це величезний набір даних, великі мовні моделі, за словами експертів, імовірно, використовують ще масштабніші масиви. Наприклад, навчальні дані для GPT-3 від OpenAI, випущеної у 2020 році, починалися з обсягу вебданих, отриманих шляхом скрейпінгу, що міг у 40 разів перевищувати C4. До навчальних даних GPT-3 також входить уся англомовна Wikipedia, збірка безплатних романів неопублікованих авторів, яку часто використовують великі технологічні компанії, а також компіляція текстів із посилань, високо оцінених користувачами Reddit (Reddit — сайт, який регулярно використовується в навчанні моделей ШІ, 14 квітня оголосив, що планує стягувати з компаній плату за такий доступ).

Експерти кажуть, що багато компаній не документують зміст своїх навчальних даних, навіть для внутрішнього користування, через страх виявити там персональну інформацію про людей, яких можна ідентифікувати, матеріали, захищені авторським правом, та інші дані, зібрані без згоди.

Компанії часто наголошують, що пояснити логіку рішень чат-ботів досить складно, але принаймні в одному питанні вони могли б бути відкритішими — а саме: на яких даних вони навчають свої моделі.

Источник: vctr.media