Anthropic запускає Claude Sonnet 5 як бюджетний спосіб керування агентами

Дмитро Сизов

Оскільки можливості судноплавних агентів стають пріоритетними серед компаній, що розробляють базові моделі, Anthropic випускає Claude Sonnet 5, потужнішу та агентську версію середньорозмірної моделі лабораторії. 

«Він може будувати плани, використовувати такі інструменти, як браузери та термінали, і працювати автономно на рівні, який лише кілька місяців тому вимагав більших і дорожчих моделей», – йдеться у дописі Anthropic у блозі 

Таке формулювання відображає те, що OpenAI та Google говорили про свої нещодавні релізи. Минулого тижня було запущено попередній перегляд GPT-5.6 Sol від OpenAI , і це також найбільш агентна модель компанії, яка дозволяє користувачам розподіляти роботу між субагентами для виконання довших автономних завдань. Gemini 3.5 Flash від Google , запущений у травні, був представлений як перехід від розмовного чат-бота до агентного інструменту, який планує, створює та повторює реальну роботу з мінімальним втручанням людини.

Презентація Sonnet 5 підтверджує, що агентські можливості є новим базовим очікуванням на кожному ціновому рівні. Тепер диференціацією буде не те, хто може найкраще виконувати агентську роботу, а те, наскільки дешево вони можуть це робити та наскільки надійно без людського нагляду.  

Sonnet 5 обіцяє продуктивність, близьку до Opus 4.8 , але за значно нижчу ціну. Починаючи з вівторка, Claude Sonnet 5 буде моделлю за замовчуванням для безкоштовних планів та планів Pro, і буде доступна для кожної підписки.

На момент запуску ціна Sonnet 5 становить 2 долари за мільйон вхідних токенів та 10 доларів за мільйон вихідних токенів до 31 серпня, після чого ціна зросте до 3 доларів за мільйон вхідних токенів та 15 доларів за мільйон вихідних токенів. Це робить Sonnet 5 дешевшим, ніж Opus 4.8, а також GPT-5.5 від OpenAI та Gemini 3.1 Pro від Google. (Він все ще дорожчий, ніж Gemini 3.5 Flash.)

Згідно з Anthropic, нова модель також демонструє значні покращення порівняно з попередником Sonnet 4.6, випущеним у лютому , щодо агентної продуктивності, такої як міркування, використання інструментів, програмне кодування та робота зі знаннями. 

Наприклад, за одним із тестів Sonnet 5 отримує 63,2% в агентному кодуванні, порівняно з 69,2% у Opus 4.8 та 58,1% у Sonnet 4.6. У тесті на знання Sonnet 5 навіть трохи перевершує Opus 4.8, який відомий тим, що перемагає у вирішенні найскладніших задач, таких як прийняття тонких рішень та глибокі дослідження. 

«Opus 4.8 все ще залишається моделлю вибору для більшої точності в цих завданнях, але Sonnet 5 надає розробникам дешевші варіанти, які набагато якісніші, ніж ті, що були доступні раніше», — каже Anthropic. «Між Sonnet 5 та Opus 4.8 користувачі можуть налаштувати рівень зусиль, щоб знайти правильний баланс між вартістю та продуктивністю».

За словами тестувальників, згаданих у дописі блогу, Sonnet 5 також чудово справляється з виконанням складних завдань, де попередні версії моделей могли б зупинитися, та «перевіряє власний вивід без явного запиту».

«Ми доручили Claude Sonnet 5 двоетапне завдання — оновити рівні облікових записів Salesforce, надіслати оголошення про запуск контактам підприємства — і воно було завершено від початку до кінця», — заявив у своїй заяві Деніел Шепард, старший інженер Zapier. «Раніше це затримувалося на півдорозі. Для щоденної автоматизації це очевидний вибір».

Щодо безпеки, Sonnet 5 також демонструє нижчий рівень «небажаної поведінки», такої як співпраця з неправильним використанням та обман, ніж його попередник, що робить його безпечнішим для використання в агентивних контекстах. Він краще відхиляє зловмисні запити та уникає спроб захоплення в атаках типу «промови про впровадження». Він також викликає галюцинації та вдається до підлабузницької поведінки з меншою частотою, ніж Sonnet 4.6.

Тим не менш, він не знаходиться на тому ж рівні, що й Opus 4.8 та Claude Mythos Preview, коли йдеться про невідповідну поведінку. «Оцінки також показують, що він має набагато нижчу здатність виконувати небезпечні завдання кібербезпеки, ніж наші поточні моделі Opus», – йдеться в блозі.

Співзасновник Lovable Фабіан Хедін заявив, що Claude Sonnet 5 «чисто та послідовно відхиляє небезпечні запити».

«У Lovable ми надаємо потужні інструменти мільйонам будівельників», – сказав Хедін. «Модель, яка знає, коли сказати «ні», так само важлива, як і та, яка знає, як будувати».