OpenAI запускає дві «відкриті» моделі міркувань штучного інтелекту
OpenAI оголосила про запуск двох моделей мислення ШІ з відкритою вагою та можливостями, подібними до її серії o . Обидві можна вільно завантажити з онлайн-платформи розробників Hugging Face , повідомила компанія, описуючи моделі як «найсучасніші» за результатами кількох бенчмарків для порівняння відкритих моделей.
Моделі випускаються у двох розмірах: більша та потужніша модель gpt-oss-120b, яка може працювати на одному графічному процесорі Nvidia, та легша модель gpt-oss-20b, яка може працювати на споживчому ноутбуці з 16 ГБ пам'яті.
Цей запуск знаменує собою першу «відкриту» мовну модель OpenAI з часів GPT-2 , яка була випущена понад п'ять років тому.
На брифінгу OpenAI заявила, що її відкриті моделі зможуть надсилати складні запити до моделей штучного інтелекту в хмарі, як раніше повідомляв TechCrunch. Це означає, що якщо відкрита модель OpenAI не здатна виконувати певне завдання, таке як обробка зображення, розробники можуть під'єднати відкриту модель до однієї з більш потужних закритих моделей компанії.
Хоча OpenAI на початку своєї діяльності робила моделі штучного інтелекту з відкритим вихідним кодом, компанія загалом віддавала перевагу власному підходу до розробки із закритим вихідним кодом. Остання стратегія допомогла OpenAI створити великий бізнес, що продає доступ до своїх моделей штучного інтелекту через API підприємствам та розробникам.
Однак, генеральний директор Сем Альтман заявив у січні, що, на його думку, OpenAI опинилася «на неправильному боці історії», коли справа доходить до відкритого коду своїх технологій. Сьогодні компанія стикається зі зростаючим тиском з боку китайських лабораторій штучного інтелекту, включаючи DeepSeek, Qwen від Alibaba та Moonshot AI, які розробили кілька найпотужніших та найпопулярніших у світі відкритих моделей. (Хоча Meta раніше домінувала у сфері відкритого штучного інтелекту, моделі Llama AI компанії за останній рік відстали .)
У липні адміністрація Трампа також закликала американських розробників штучного інтелекту відкрити вихідний код для більшої кількості технологій , щоб сприяти глобальному впровадженню штучного інтелекту, що відповідає американським цінностям.
З випуском gpt-oss, OpenAI сподівається завоювати прихильність як розробників, так і адміністрації Трампа, які спостерігали, як китайські лабораторії штучного інтелекту здобули популярність у сфері відкритого коду.
«Повертаючись до нашого початку у 2015 році, місія OpenAI полягає в тому, щоб забезпечити, щоб ЗШІ приносив користь усьому людству», – сказав Альтман у заяві, опублікованій TechCrunch. «З цією метою ми раді, що світ будує на відкритому стеку ШІ, створеному в Сполучених Штатах, заснованому на демократичних цінностях, доступному безплатно для всіх і для широкої користі».
Як показали себе моделі
OpenAI прагнула зробити свою відкриту модель лідером серед інших моделей штучного інтелекту відкритої ваги, і компанія стверджує, що саме це й зробила.
У Codeforces (з інструментами), конкурентному тесті кодування, gpt-oss-120b та gpt-oss-20b отримали 2622 та 2516 балів відповідно, перевершуючи R1 DeepSeek, але поступаючись o3 та o4-mini.
На «Останньому іспиті людства» (HLE), складному тесті з питань, зібраних за допомогою краудсорсингу з різних предметів (за допомогою інструментів), gpt-oss-120b та gpt-oss-20b набрали 19% та 17,3% відповідно. Аналогічно, цей показник поступається o3, але перевершує провідні відкриті моделі від DeepSeek та Qwen.
Примітно, що відкриті моделі OpenAI викликають значно більше галюцинацій, ніж його останні моделі мислення штучного інтелекту, o3 та o4-mini.
Галюцинації стають все серйознішими в останніх моделях мислення штучного інтелекту OpenAI, і компанія раніше заявляла, що не зовсім розуміє, чому. У офіційному документі OpenAI стверджує, що це «очікувано, оскільки менші моделі мають менше знань про світ, ніж більші передові моделі, і, як правило, більше галюцинують».
OpenAI виявила, що gpt-oss-120b та gpt-oss-20b викликали галюцинації у відповідь на 49% та 53% запитань відповідно в PersonQA, внутрішньому тесті компанії для вимірювання точності знань моделі про людей. Це більш ніж утричі перевищує рівень галюцинацій у моделі OpenAI o1, яка набрала 16%, та вище, ніж у моделі o4-mini, яка набрала 36%.
Навчання нових моделей
OpenAI стверджує, що її відкриті моделі були навчені за аналогічними процесами, як і її власні моделі. Компанія стверджує, що кожна відкрита модель використовує метод змішаних експертів (MoE) для використання меншої кількості параметрів для будь-якого поставленого питання, що робить її роботу ефективнішою. Для gpt-oss-120b, яка має загальну кількість 117 мільярдів параметрів, OpenAI стверджує, що модель активує лише 5,1 мільярда параметрів на токен.
Компанія також заявляє, що її відкрита модель була навчена за допомогою високообчислювального навчання з підкріпленням (RL) — процесу після навчання, який дозволяє моделям штучного інтелекту розрізняти правильне та неправильне в симульованих середовищах з використанням великих кластерів графічних процесорів Nvidia. Цей процес також використовувався для навчання моделей серії o від OpenAI, і відкриті моделі мають подібний процес ланцюга думок, у якому їм потрібен додатковий час та обчислювальні ресурси для обробки відповідей.
В результаті процесу після навчання, OpenAI стверджує, що її відкриті моделі штучного інтелекту чудово підтримують роботу агентів штучного інтелекту та здатні викликати такі інструменти, як веб-пошук або виконання коду Python, як частину свого процесу обговорення думок. Однак, OpenAI стверджує, що її відкриті моделі є лише текстовими, тобто вони не зможуть обробляти або генерувати зображення та аудіо, як інші моделі компанії.
OpenAI випускає gpt-oss-120b та gpt-oss-20b під ліцензією Apache 2.0, яка загалом вважається однією з найбільш дозвільних. Ця ліцензія дозволить підприємствам монетизувати відкриті моделі OpenAI без необхідності платити чи отримувати дозвіл від компанії.
Однак, на відміну від повністю відкритих пропозицій від лабораторій штучного інтелекту, таких як AI2, OpenAI заявляє, що не публікуватиме навчальні дані, що використовуються для створення її відкритих моделей. Це рішення не дивно, враховуючи, що кілька активних позовів проти постачальників моделей штучного інтелекту, включаючи OpenAI, стверджують, що ці компанії неналежним чином навчали свої моделі штучного інтелекту на творах, захищених авторським правом.
OpenAI кілька разів відкладала випуск своїх відкритих моделей протягом останніх місяців, частково для розв'язання проблем безпеки. Окрім типових правил безпеки компанії, OpenAI у своєму офіційному документі зазначає, що також досліджувала, чи можуть зловмисники налаштувати свої моделі gpt-oss, щоб вони були кориснішими під час кібератак або створення біологічної чи хімічної зброї.
Після тестування, проведеного OpenAI та сторонніми оцінювачами, компанія стверджує, що gpt-oss може незначно збільшити біологічні можливості. Однак вона не знайшла доказів того, що ці відкриті моделі можуть досягти порогу «високої здатності» щодо небезпеки в цих областях, навіть після точного налаштування.
Хоча модель OpenAI видається найсучаснішою серед відкритих моделей, розробники з нетерпінням чекають на випуск DeepSeek R2, наступної моделі мислення штучного інтелекту, а також нової відкритої моделі від Лабораторії суперрозуму Meta.