Microsoft створила фальшивий торговий майданчик для тестування агентів з ШІ

Дмитро Сизов

Дослідники Microsoft випустили нове середовище моделювання, призначене для тестування агентів зі штучним інтелектом, а також нове дослідження, яке показує, що сучасні агентні моделі можуть бути вразливими до маніпуляцій. Дослідження, проведене у співпраці з Університетом штату Аризона, порушує нові питання про те, наскільки добре агенти зі штучним інтелектом працюватимуть без нагляду, і як швидко компанії, що займаються розробкою штучного інтелекту, зможуть виконати обіцянки щодо агентного майбутнього.

Середовище симуляції, яке Microsoft отримало назву «Magentic Marketplace» , побудовано як синтетична платформа для експериментів з поведінкою агентів штучного інтелекту. Типовий експеримент може включати агента-клієнта, який намагається замовити вечерю відповідно до інструкцій користувача, тоді як агенти, що представляють різні ресторани, змагаються за право виграти замовлення.

Початкові експерименти команди включали 100 окремих агентів на стороні клієнта, які взаємодіяли з 300 агентами на стороні бізнесу. Оскільки вихідний код торгівельного майданчика є відкритим, іншим групам має бути легко використовувати цей код для проведення нових експериментів або відтворення результатів.

Есе Камар, керівний директор Лабораторії штучного інтелекту Microsoft Research, каже, що такі дослідження будуть критично важливими для розуміння можливостей агентів штучного інтелекту. «Насправді виникає питання про те, як зміниться світ, якщо ці агенти співпрацюватимуть, спілкуватимуться один з одним і вестимуть переговори», – сказала Камар. «Ми хочемо глибоко зрозуміти ці речі».

Початкове дослідження розглядало поєднання провідних моделей, включаючи GPT-4o, GPT-5 та Gemini-2.5-Flash, і виявило деякі несподівані недоліки. Зокрема, дослідники виявили кілька методів, які компанії можуть використовувати для маніпулювання агентами клієнтів, щоб ті купували їхні продукти. Дослідники помітили особливе зниження ефективності, оскільки агенту клієнта надавалося більше варіантів на вибір, що перевантажувало простір його уваги.

«Ми хочемо, щоб ці агенти допомогли нам обробити багато варіантів», — каже Камар. «І ми бачимо, що нинішні моделі насправді перевантажені через надто велику кількість варіантів».

Агенти також зіткнулися з проблемами, коли їх попросили співпрацювати для досягнення спільної мети, очевидно, не знаючи, який агент яку роль має відігравати у співпраці. Продуктивність покращилася, коли моделям надавали чіткіші інструкції щодо співпраці, але дослідники все ще вважали, що властиві моделям можливості потребують покращення.

«Ми можемо інструктувати моделі — ніби ми можемо розповідати їм крок за кроком», — сказав Камар. «Але якщо ми по суті тестуємо їхні можливості співпраці, я очікую, що ці моделі матимуть ці можливості за замовчуванням».