Новий інструмент Microsoft дозволяє розробникам запускати тести поведінки ШІ за допомогою текстових описів

Дослідники та лабораторії штучного інтелекту досягли величезного прогресу в оцінці моделей штучного інтелекту з усіх питань, від безпеки та відповідності до підлабузництва та узгодженості . Але, схоже, компанії та розробники стикаються з новою, специфічною потребою: переконатися, що їхня система штучного інтелекту поводиться належним чином для їхнього конкретного продукту чи послуги.
Щоб спростити процес тестування, Microsoft у вівторок розкрила ASSERT , скорочення від Adaptive Spec-driven Scoring for Evaluation and Regression Testing (Адаптивне оцінювання на основі специфікацій для оцінювання та регресійного тестування).
За словами Microsoft, фреймворк з відкритим кодом спрощує оцінку поведінки штучного інтелекту, пов'язаної з конкретними програмами, використовуючи штучний інтелект для перетворення високорівневих описів цілей, політик або запланованої поведінки природною мовою на ретельні, оцінені тести, які можна дослідити.
ASSERT бере описи очікуваної поведінки та політик моделі штучного інтелекту простою мовою, перетворює їх на структурований набір прийнятних та неприйнятних моделей поведінки, генерує проблемні сценарії та тестові випадки, запускає їх у цільовій системі та оцінює результати. Він також може записувати шляхи, які проходить система штучного інтелекту, включаючи проміжні дії та виклики інструментів, щоб розробники могли перевірити, де відбуваються збої.
Розробники також можуть надавати системний контекст, інструменти та обмеження, якщо вони хочуть додатково налаштувати те, що охоплюють оцінювання.
Наприклад, розробник може вказати, що агент штучного інтелекту для дослідження документів не повинен надсилати електронні листи людям за межами компанії, а також що конфіденційну інформацію слід надавати лише керівникам рівня C та надавати стислі виклади з урахуванням попереднього контексту. ASSERT використовуватиме ці правила для створення тестових випадків, які перевірятимуть, чи система постійно дотримується цих правил.
За словами Microsoft, ця структура заповнює прогалину, яку не можуть забезпечити ширші, загальніші оцінки, коли моделі штучного інтелекту призначені для поведінки, що формується контекстом, політиками та інструментами програми чи продукту.
«Одна з речей, яку ми засвоїли, полягає в тому, що оцінювання є абсолютно необхідним для прийняття правильних рішень», – сказала Сара Берд , головний директор з продуктів Responsible AI у Microsoft. «Тому що якщо ви не розумієте поведінку системи штучного інтелекту, дуже важко зрозуміти, чи відповідає вона вимогам вашої організації… Ми виявили, що якщо ви дійсно хочете мати надійну систему, вам слід оцінити набагато більше аспектів, що стосуються конкретного застосування».
Берд сказав, що ASSERT можна використовувати для оцінки систем під час їх створення, після розгортання і навіть для постійного моніторингу.
Цей реліз відбувається на тлі поступового, але ширшого зрушення в індустрії штучного інтелекту. Оскільки моделі стають більш потужними, дослідники зосереджуються на повторюваному тестуванні та регресійних перевірках, а HELM зі Стенфорда , AILuminate з MLCommons та оціночні групи, такі як METR, випускають бенчмарки для вимірювання поведінки моделей за різних умов.