OpenAI запускає GPT-5.4 з версіями Pro та Thinking

OpenAI випустила GPT-5.4 , нову базову модель, яку називають «нашою найздібнішою та найефективнішою передовою моделлю для професійної роботи». Окрім стандартної версії, GPT-5.4 також доступна як модель міркування (GPT-5.4 Thinking) або оптимізована для високої продуктивності (GPT-5.4 Pro).
Версія API моделі буде доступна з контекстними вікнами розміром до 1 мільйона токенів, що є найбільшим контекстним вікном, доступним в OpenAI.
OpenAI також наголосив на підвищеній ефективності токенів, заявивши, що GPT-5.4 зміг вирішити ті ж проблеми зі значно меншою кількістю токенів, ніж його попередник.
Нова модель демонструє значно покращені результати тестів, зокрема рекордні бали в тестах використання комп’ютера OSWorld-Verified та WebArena Verified. Нова модель також набрала рекордні 83% у тесті GDPval від OpenAI для завдань інтелектуальної роботи.
GPT-5.4 також посів лідерство в бенчмарку Mercor APEX-Agents , розробленому для перевірки професійних навичок у галузі права та фінансів, згідно із заявою генерального директора Mercor Брендана Фуді.
«[GPT-5.4] чудово справляється зі створенням довгострокових результатів, таких як презентації слайдів, фінансові моделі та юридичний аналіз», – йдеться у заяві Foody, – «забезпечуючи найвищу продуктивність, водночас працюючи швидше та з меншою вартістю, ніж конкурентні передові моделі».
GPT-5.4 продовжує зусилля компанії щодо обмеження галюцинацій та фактичних помилок. OpenAI заявила, що нова модель на 33% рідше допускає помилки в окремих твердженнях порівняно з GPT 5.2, а загальні відповіді на 18% рідше містять помилки.
В рамках запуску OpenAI переробила спосіб керування викликами інструментів у версії API GPT-5.4, представивши нову систему під назвою «Пошук інструментів». Раніше системні підказки відображали визначення всіх доступних інструментів під час виклику моделі — процес, який міг споживати багато токенів зі зростанням кількості доступних інструментів. Нова система дозволяє моделям шукати визначення інструментів за потреби, що призводить до швидших та дешевших запитів у системах з багатьма доступними інструментами.
OpenAI також включив нову оцінку безпеки для перевірки ланцюжка думок своїх моделей – поточного коментаря, який надають моделі для демонстрації процесу думок через багатоетапні завдання. Дослідники безпеки ШІ давно стурбовані тим, що моделі міркувань можуть спотворювати їхній ланцюжок думок, і тестування показує, що це може статися за певних обставин.
Нове оцінювання OpenAI показує, що обман менш імовірний у версії GPT-5.4 для мислення, «що свідчить про те, що моделі бракує здатності приховувати свої міркування, і що моніторинг CoT залишається ефективним інструментом безпеки».