У ШІ знайшлися проблеми з вимірюванням

Дмитро Сизов 16 апреля 2024 09:09

Є проблема з такими провідними інструментами штучного інтелекту, як ChatGPT, Gemini та Claude: ми насправді не знаємо, наскільки вони розумні.

Це тому, що, на відміну від компаній, які виробляють автомобілі, ліки чи дитячі суміші, компанії, що займаються штучним інтелектом, не зобов’язані подавати свої продукти на тестування, перш ніж випускати їх для громадськості. Для чат-ботів штучного інтелекту немає знака Good Housekeeping, і кілька незалежних груп ретельно перевіряють ці інструменти.

Натомість нам залишається покладатися на заяви компаній зі штучного інтелекту, які часто використовують розпливчасті, нечіткі фрази, як-от « покращені можливості », щоб описати, чим їхні моделі відрізняються від однієї версії до іншої. І хоча існують деякі стандартні тести, що проводяться для моделей штучного інтелекту, щоб оцінити, наскільки вони добре, скажімо, у математиці чи логічному мисленні, багато експертів сумніваються щодо надійності цих тестів.

Це може звучати як дрібне нарікання. Але я переконався, що брак хороших вимірювань і оцінок для систем ШІ є основною проблемою.

Для початку, без правдивої інформації про продукти штучного інтелекту, як людям знати, що з ними робити?

Я не можу порахувати, скільки разів за минулий рік мене запитували друг чи колега, який інструмент штучного інтелекту їм слід використовувати для певного завдання. ChatGPT чи Gemini пишуть кращий код на Python? DALL-E 3 чи Midjourney краще створюють реалістичні зображення людей?

Навіть як людині, яка заробляє на життя пише про штучний інтелект і постійно тестує нові інструменти, було надзвичайно важко відстежувати відносні сильні та слабкі сторони різних продуктів ШІ. Більшість технологічних компаній не публікують посібників користувача чи докладних приміток до випуску своїх продуктів ШІ. А моделі оновлюються настільки часто, що чат-бот, який одного дня не справляється з завданням, наступного може таємничим чином досягти успіху.

Неякісні вимірювання також створюють ризик для безпеки. Без кращих тестів для моделей штучного інтелекту важко зрозуміти, які можливості покращуються швидше, ніж очікувалося, або які продукти можуть становити реальну загрозу шкоди.

У цьогорічному Індексі ШІ — великому щорічному звіті Інституту штучного інтелекту, орієнтованого на людину Стенфордського університету — автори описують погані вимірювання як одну з найбільших проблем, з якою стикаються дослідники ШІ.

«Відсутність стандартизованої оцінки робить надзвичайно складним систематичне порівняння обмежень і ризиків різних моделей ШІ», — сказав мені головний редактор звіту Нестор Маслей.

Протягом багатьох років найпопулярнішим методом вимірювання штучного інтелекту був так званий тест Тюрінга — вправа, запропонована в 1950 році математиком Аланом Тюрінгом, яка перевіряє, чи може комп’ютерна програма обдурити людину, щоб прийняти її відповіді за людські.

Але сучасні системи штучного інтелекту можуть з відмінністю пройти тест Тюрінга, і дослідникам довелося придумати нові, складніші оцінки.

Один із найпоширеніших тестів, які сьогодні дають моделям штучного інтелекту — по суті, SAT для чат-ботів — це тест, відомий як «Розуміння мови багатозадачності» або MMLU.

MMLU, який був випущений у 2020 році, складається з приблизно 16 000 запитань із варіантами відповідей, які охоплюють десятки навчальних предметів, починаючи від абстрактної алгебри до права та медицини. Це має бути свого роду загальний тест інтелекту — чим більше з цих запитань чат-бот дає правильні відповіді, тим він розумніший.

Це стало золотим стандартом для компаній ШІ, які змагаються за домінування. (Коли на початку цього року Google випустив свою найдосконалішу модель штучного інтелекту Gemini Ultra, вона похвалилася , що вона набрала 90 відсотків за MMLU — це найвищий результат, який будь-коли зареєстровано.)

Ден Хендрікс, дослідник безпеки штучного інтелекту, який брав участь у розробці MMLU під час навчання в аспірантурі Каліфорнійського університету в Берклі, сказав мені, що цей тест ніколи не можна було використовувати для хвастощів. Він був стурбований тим, як швидко вдосконалюються системи штучного інтелекту, і хотів спонукати дослідників ставитися до цього більш серйозно.

Г-н Хендрікс сказав, що, хоча він вважає, що MMLU «ймовірно, має ще рік або два терміни придатності», незабаром його потрібно буде замінити іншими, складнішими тестами. Системи штучного інтелекту стають занадто розумними для тестів, які ми маємо зараз, і стає все складніше розробляти нові.

«Усі ці контрольні показники неправильні, але деякі корисні», — сказав він. «Деякі з них можуть обслуговувати якусь корисну функцію протягом фіксованого періоду часу, але в якийсь момент на них чиниться такий сильний тиск, що вони досягають своєї межі».

Існують десятки інших тестів — із такими назвами, як TruthfulQA та HellaSwag — які призначені для визначення інших аспектів продуктивності ШІ. Але подібно до того, як SAT фіксує лише частину інтелекту та здібностей студента, ці тести здатні виміряти лише вузьку частину потужності системи ШІ.

І жоден із них не призначений для відповідей на більш суб’єктивні запитання багатьох користувачів, наприклад: чи цікаво спілкуватися з цим чат-ботом? Що краще для автоматизації рутинної офісної роботи чи творчого мозкового штурму? Наскільки суворі його захисні огорожі?

(The New York Times подала до суду на OpenAI, виробника ChatGPT, і його партнера Microsoft за позовами про порушення авторських прав, пов’язаних із системами штучного інтелекту, які генерують текст.)

Також можуть бути проблеми з самими тестами. Декілька дослідників, з якими я спілкувався, попереджали, що процес адміністрування порівняльних тестів, таких як MMLU, дещо відрізняється від компанії до компанії, і що оцінки різних моделей можуть бути непрямими для порівняння.

Існує проблема, відома як «забруднення даних», коли запитання та відповіді для еталонних тестів включені в навчальні дані моделі штучного інтелекту, що фактично дозволяє їй шахраювати. І для цих моделей немає процесу незалежного тестування чи аудиту, а це означає, що компанії зі штучним інтелектом по суті оцінюють свої власні домашні завдання.

Коротше кажучи, вимірювання штучного інтелекту — це безлад — клубок неохайних тестів, порівнянь «яблука з апельсинами» та корисливого галасу, який змусив користувачів, регулятори та самих розробників штучного інтелекту дивитися в темряві.

«Попри появу науки, більшість розробників дійсно судять про моделі на основі вібрації чи інстинкту», — сказав Натан Бенаїч, інвестор у галузі штучного інтелекту Air Street Capital. «Це може бути добре на цей час, але в міру того, як ці моделі зростають у потужності та соціальної значущості, цього буде недостатньо».

Рішення тут, ймовірно, полягає в поєднанні державних і приватних зусиль.

Уряди можуть і повинні запропонувати надійні програми тестування, які вимірюють як необроблені можливості, так і ризики безпеки моделей ШІ, і вони повинні фінансувати гранти та дослідницькі проекти, спрямовані на створення нових високоякісних оцінок. (У своєму виконавчому розпорядженні про штучний інтелект минулого року Білий дім наказав кільком федеральним агентствам, включаючи Національний інститут стандартів і технологій, створити та контролювати нові способи оцінки систем ШІ.)

Певний прогрес також спостерігається в академічному середовищі. Минулого року дослідники Стенфордського університету представили новий тест для моделей зображень штучного інтелекту, який використовує оцінювачів, а не автоматичних тестів, щоб визначити, наскільки дієва модель. А група дослідників з Каліфорнійського університету в Берклі нещодавно запустила Chatbot Arena , популярну таблицю лідерів, яка протиставляє анонімні рандомізовані моделі штучного інтелекту та пропонує користувачам проголосувати за найкращу модель.

Компанії зі штучним інтелектом також можуть допомогти, зобов’язавшись співпрацювати зі сторонніми оцінювачами та аудиторами для тестування своїх моделей, роблячи нові моделі більш доступними для дослідників і будучи більш прозорими під час оновлення своїх моделей. І я сподіваюся, що в засобах масової інформації з часом з’явиться якесь видання в стилі Wirecutter, яке візьметься за завдання рецензування нових продуктів штучного інтелекту в суворий і надійний спосіб.

Дослідники Anthropic, компанії штучного інтелекту, написали в блозі минулого року, що «ефективне управління ШІ залежить від нашої здатності суттєво оцінювати системи ШІ».

Я згоден. Штучний інтелект є надто важливою технологією, щоб оцінювати її на основі вібрацій. Доки ми не отримаємо кращих способів вимірювання цих інструментів, ми не знатимемо, як ними користуватися, чи варто відзначати їхній прогрес чи побоюватися.

Кевін Руз