OpenAI: нова модель GPT обійшла в тестах більшість програмістів планети

25 декабря 2024 12:30

Компанія OpenAI представила o3 – нове сімейство мовних моделей, але поки що вони будуть доступні тільки дослідникам для тестування.

OpenAI розробила оновлені версії великих мовних моделей, здатних до міркувань. Нова модель OpenAI під назвою o3 замінює o1, яку компанія представила у вересні. Як і o1, нова модель витрачає час на роздуми над проблемою, щоб надати кращі відповіді на питання, які потребують покрокового логічного обґрунтування.

За словами OpenAI, модель o3 набрала за кількома показниками і бенчмарками, які використовують для оцінювання ШІ, більше балів, ніж її попередниця. Серед цих тестів ті, які вимірюють складні навички, пов’язані з програмуванням, а також складні математичні задачі та розв’язання наукових проблем.

Модель o3 навчена за допомогою навчання з підкріпленням “думати”, перш ніж реагувати. Отримавши запитання, o3 робить паузу перед відповіддю, “аналізує” інформацію і “пояснює” свої міркування в процесі роботи. Через деякий час модель підсумовує те, що вона вважає найбільш точною відповіддю. Ті самі принципи міркувань використовувала o1, але тепер користувачі можуть “регулювати” час міркувань: що більший час, то точніша відповідь.

В ARC-AGI – тесті, розробленому для оцінки того, чи може система ШІ ефективно здобувати нові навички поза даними, на яких її було навчено, – o3 досягла 87,5% балів за високих налаштувань обчислень. У гіршому випадку (за низьких налаштувань обчислень) модель потроїла продуктивність o1.

Розробники також повідомляють, що модель перевершує o1 на 22,8 п.п. у SWE-Bench Verified – бенчмарку, орієнтованому на завдання програмування. Крім того, під час розв’язання задач на програмування рейтингу Codeforces вона набрала 2727 балів. Розробники, які отримують понад 2600 балів, отримують на платформі звання міжнародного гросмейстера програмування – таких людей на Землі трохи більше 300.

Усі повідомлення про гучні досягнення нової моделі поки що наводить тільки OpenAI. Модель поки що не буде опублікована в загальному доступі або за передплатою. Компанія до 10 січня приймає заявки для реєстрації груп тестувальників безпеки та дослідників, які першими оцінять можливості та ризики нової моделі.

Источник: cikavosti.com