Експерти пророкують, що ШІ сам себе знищить
Обговорюваний у 2023 році, але популяризований нещодавно, «колапс моделей» означає гіпотетичний сценарій, за яким майбутні системи ШІ стають дедалі тупішими через збільшення кількості даних, згенерованих ШІ в інтернеті.
Сучасні системи штучного інтелекту будуються за допомогою машинного навчання. Програмісти створюють базову математичну структуру, але справжній «інтелект» з’являється завдяки навчанню системи імітувати закономірності в даних. Але не просто даних. Нинішній урожай генеративних систем штучного інтелекту потребує високоякісних даних, причому у великій кількості.
Щоб отримати ці дані, великі технологічні компанії, такі як OpenAI, Google, Meta і Nvidia, постійно прочісують інтернет, виловлюючи терабайти контенту, щоб «нагодувати машини». Але з появою у 2022 році загальнодоступних і корисних генеративних систем штучного інтелекту люди все частіше завантажують і діляться контентом, який частково або повністю створений штучним інтелектом.
У 2023 році дослідники почали задаватися питанням, чи зможуть вони уникнути покарання, покладаючись у навчанні лише на дані, створені ШІ, а не на дані, створені людиною.
Існують величезні стимули для того, щоб це спрацювало. Крім того, що контент, створений штучним інтелектом, поширюється в інтернеті, він набагато дешевший, ніж дані, отримані від людини. Крім того, масовий збір даних не викликає сумнівів з етичної та юридичної точки зору.
Однак дослідники виявили, що без високоякісних людських даних ШІ-системи, навчені на штучних даних, стають все тупішими і тупішими, оскільки кожна наступна модель вчиться на попередній.
Таке «навчання», схоже, призводить до зниження якості та різноманітності поведінки моделі. Коротше кажучи, використовуючи ШІ так часто, ми можемо забруднювати саме те джерело даних, яке нам потрібне для того, щоб зробити їх корисними в першу чергу.
Є натяки на те, що розробникам вже зараз доводиться докладати більше зусиль, щоб отримати якісні дані.
Однак перспективи катастрофічного краху моделі можуть бути перебільшені. Більшість досліджень поки що розглядають випадки, коли синтетичні дані замінюють людські. На практиці ж людські та штучні дані, ймовірно, накопичуватимуться паралельно, що знижує ймовірність колапсу.
Источник: psm7.com