ШІ агенти прагнуть бути юристами в США

Дмитро Сизов

Новий бенчмарк Mercor, який вимірює можливості агентів зі штучним інтелектом у професійних завданнях, таких як право та корпоративний аналіз. На той час результати були досить низькими, кожна велика лабораторія набрала менше 25%, тому ми дійшли висновку, що юристи застраховані від витіснення ШІ, принаймні наразі.

Цього тижня випуск Opus 4.6 від Anthropic сколихнув таблиці лідерів : нова модель Anthropic набрала трохи менше 30% в одноразових випробуваннях і в середньому 45% після кількох додаткових спроб вирішення проблеми. Примітно, що реліз включав низку нових агентних функцій, включаючи «рої агентів», які, можливо, допомогли з таким багатоетапним вирішенням проблем.

Незважаючи на це, цей показник є величезним стрибком у порівнянні з попереднім сучасним рівнем, і свідчить про те, що прогрес у розробці моделей фундаменту не сповільнюється. Генеральний директор Mercor Брендан Фуді, який був особливо вражений, сказав: «Стрибок з 18,4% до 29,8% за кілька місяців – це божевілля».

Таблиця лідерів агентів APEX.Автори зображень: Mercor (скріншот)

Тридцять відсотків – це ще далеко до 100%, тому юристам не варто хвилюватися, що наступного тижня їх замінять машини. Але вони мають бути набагато менш впевненими, ніж минулого місяця!