Моделі штучного інтелекту починають розв'язувати математичні задачі високого рівня

Ніл Сомані , інженер-програміст, колишній квантовий дослідник і засновник стартапу, тестував математичні навички нової моделі OpenAI, коли зробив несподіване відкриття. Вставивши задачу в ChatGPT і давши їй подумати 15 хвилин, він повернувся до повного рішення. Він оцінив доказ і формалізував його за допомогою інструменту під назвою Harmonic — але все було вірно.
«Мені було цікаво встановити базову лінію для того, коли магістратури з правового захисту (LLM) будуть ефективно здатні розв'язувати математичні задачі, порівняно з тим, де вони мають труднощі», – сказав Сомані. Несподіванкою стало те, що, використовуючи останню модель, межа почала трохи просуватися вперед.
Ландшафт думок ChatGPT ще вражаючий, він переплітає математичні аксіоми, такі як формула Лежандра , постулат Бертрана та теорема Зірки Давида . Зрештою, модель знайшла публікацію Math Overflow від 2013 року , де математик Гарварду Ноам Елкіс запропонував елегантне розв'язання подібної проблеми. Але остаточний доказ ChatGPT суттєво відрізнявся від роботи Елкіса та дав повніше рішення версії проблеми, поставленої легендарним математиком Полом Ердешем, чия величезна колекція розв'язуваних проблем стала полігоном для штучного інтелекту.
Для тих, хто скептично ставиться до машинного інтелекту, це несподіваний результат — і він не єдиний. Інструменти штучного інтелекту стали повсюдними в математиці, від орієнтованих на формалізацію LLM, таких як Aristotel від Harmonic, до інструментів огляду літератури, таких як глибокі дослідження OpenAI. Але з моменту випуску GPT 5.2, який Сомані описує як «за анекдотичними даними більш вправний у математичних міркуваннях, ніж попередні ітерації», величезний обсяг розв'язаних проблем стало важко ігнорувати, що ставить нові питання щодо здатності моделей великих мов розширювати межі людського знання.
Сомані розглядав задачі Ердеша, набір із понад 1000 гіпотез угорського математика, які зберігаються в Інтернеті . Ці задачі стали спокусливою мішенню для математики на основі штучного інтелекту, суттєво відрізняючись як за тематикою, так і за складністю. Перша партія автономних рішень надійшла в листопаді з моделі на базі Gemini під назвою AlphaEvolve , але нещодавно Сомані та інші виявили, що GPT 5.2 надзвичайно добре справляється з математикою високого рівня.
З Різдва 15 проблем на вебсайті Ердеша було перенесено з категорії «відкритих» до категорії «вирішених», а в 11 рішеннях як задіяні в цьому процесі моделі штучного інтелекту було конкретно зазначено.
Шановний математик Теренс Тао пропонує більш детальний погляд на прогрес на своїй сторінці GitHub , нараховуючи вісім різних проблем, де моделі штучного інтелекту досягли значного автономного прогресу в задачі Ердеша, а також шість інших випадків, коли прогрес було досягнуто завдяки виявленню та розвитку попередніх досліджень. Це ще далеко від того, щоб системи штучного інтелекту могли виконувати математичні обчислення без втручання людини, але очевидно, що великі моделі відіграють важливу роль.
На Mastodon Тао висловив припущення, що масштабована природа систем штучного інтелекту робить їх «краще придатними для систематичного застосування до «довгого хвоста» незрозумілих задач Ердеша, багато з яких насправді мають прості рішення».
«Таким чином, багато з цих простіших задач Ердеша тепер, ймовірніше, можна вирішити виключно методами на основі штучного інтелекту, ніж людськими чи гібридними засобами», – продовжив Тао.
Ще однією рушійною силою є нещодавній зсув у бік формалізації, трудомісткого завдання, яке спрощує перевірку та розширення математичних міркувань. Формалізація не вимагає використання штучного інтелекту чи навіть комп'ютерів, але нове покоління автоматизованих інструментів значно спростило цей процес. «Помічник доказів» з відкритим кодом Lean, розроблений у Microsoft Research у 2013 році, широко використовується в цій галузі як спосіб формалізації доказів, а інструменти штучного інтелекту, такі як Aristotle від Harmonic, обіцяють автоматизувати значну частину роботи з формалізації.
Для засновника Harmonic Тудора Ахіма раптовий стрибок у розв'язуваних задачах Ердеша менш важливий, ніж той факт, що найвидатніші математики світу починають серйозно ставитися до цих інструментів. «Мене більше хвилює той факт, що професори математики та інформатики використовують [інструменти штучного інтелекту]», — сказав Ахім. «Ці люди мають репутацію, яку потрібно захищати, тому, коли вони кажуть, що використовують Арістотеля або ChatGPT, це реальний доказ».