DeepMind стверджує, що його ШІ працює краще, ніж золоті медалісти Міжнародної математичної олімпіади

Система штучного інтелекту, розроблена Google DeepMind, провідною дослідницькою лабораторією Google зі штучного інтелекту, здається, перевершила середнього золотого медаліста у розв’язанні геометричних задач на міжнародному математичному конкурсі.
Система під назвою AlphaGeometry2 є вдосконаленою версією системи AlphaGeometry, яку DeepMind випустила минулого січня . У нещодавно опублікованому дослідженні дослідники DeepMind, що стоять за AlphaGeometry2, стверджують, що їхній штучний інтелект може вирішити 84% усіх геометричних задач за останні 25 років на Міжнародній математичній олімпіаді (IMO), математичному конкурсі для учнів старших класів.
Чому DeepMind піклується про змагання з математики серед учнів середньої школи? Що ж, лабораторія вважає, що ключ до більш потужного штучного інтелекту може полягати у відкритті нових способів розв'язання геометричних задач — зокрема, задач евклідової геометрії .
Доведення математичних теорем або логічне пояснення, чому теорема (наприклад, теорема Піфагора) є істинною, вимагає як аргументації, так і здатності вибирати з ряду можливих кроків до рішення. Ці навички розв'язання проблем можуть — якщо DeepMind має рацію — стати корисним компонентом майбутніх моделей ШІ загального призначення.
Дійсно, минулого літа DeepMind продемонстрував систему, яка поєднує AlphaGeometry2 з AlphaProof, моделлю AI для формальних математичних міркувань, щоб вирішити чотири з шести проблем IMO 2024. Окрім геометричних проблем, подібні підходи можна поширити на інші галузі математики та науки — наприклад, щоб допомогти у складних інженерних розрахунках.
AlphaGeometry2 має кілька основних елементів, включаючи мовну модель із сімейства моделей штучного інтелекту Google Gemini та «символічний механізм». Модель Gemini допомагає символьному механізму, який використовує математичні правила для виведення розв’язків проблем, отримати можливі докази для певної геометричної теореми.

Олімпіадні геометричні задачі базуються на діаграмах, які перед розв’язуванням потребують додавання «конструкцій», таких як точки, лінії чи кола. Модель Gemini від AlphaGeometry2 передбачає, які конструкції може бути корисно додати до діаграми, на які посилається механізм, щоб зробити висновки.
По суті, модель Gemini від AlphaGeometry2 пропонує механізму кроки та конструкції на формальній математичній мові, який, дотримуючись певних правил, перевіряє ці кроки на логічну послідовність. Алгоритм пошуку дозволяє AlphaGeometry2 проводити кілька паралельних пошуків рішень і зберігати, можливо, корисні результати в загальній базі знань.
AlphaGeometry2 вважає проблему «вирішеною», коли отримує доказ, який поєднує пропозиції моделі Gemini з відомими принципами символічного механізму.
Через складність перекладу доказів у формат, зрозумілий штучному інтелекту, не вистачає корисних геометричних навчальних даних. Тому DeepMind створив власні синтетичні дані для навчання мовної моделі AlphaGeometry2, згенерувавши понад 300 мільйонів теорем і доказів різної складності.
Команда DeepMind вибрала 45 геометричних задач із конкурсів IMO за останні 25 років (з 2000 по 2024 рік), включаючи лінійні рівняння та рівняння, які вимагають переміщення геометричних об’єктів навколо площини. Потім вони «переклали» їх у більший набір із 50 проблем. (З технічних причин деякі проблеми довелося розділити на дві частини.)
Згідно з документом, AlphaGeometry2 розв’язав 42 із 50 завдань, підвищивши середній бал золотого медаліста 40,9.
Звичайно, є обмеження. Технічна примха заважає AlphaGeometry2 розв’язувати задачі зі змінною кількістю точок, нелінійними рівняннями та нерівностями. І технічно AlphaGeometry2 не є першою системою штучного інтелекту, яка досягла рівня золотої медалі в геометрії, хоча вона перша, яка досягла цього з набором завдань такого розміру.
AlphaGeometry2 також впорався гірше з іншим набором складніших проблем IMO. Для додаткового виклику команда DeepMind вибрала задачі — загалом 29 — які були висунуті експертами з математики для іспитів IMO, але які ще не брали участь у конкурсі. AlphaGeometry2 міг вирішити лише 20 із них.
З усім тим, результати дослідження, ймовірно, підживлять дискусію щодо того, чи слід будувати системи штучного інтелекту на маніпулюванні символами — тобто маніпулюванні символами, які представляють знання за допомогою правил — чи на нейронних мережах, які нібито більше схожі на мозок.
AlphaGeometry2 використовує гібридний підхід: його модель Gemini має архітектуру нейронної мережі, а його символічний механізм заснований на правилах.
Прихильники методів нейронних мереж стверджують, що інтелектуальна поведінка, від розпізнавання мови до генерації зображень, може виникнути лише з величезних обсягів даних і обчислень. На відміну від символьних систем, які вирішують завдання шляхом визначення наборів правил маніпулювання символами, призначених для певних завдань, як-от редагування рядка в програмному забезпеченні текстового процесора, нейронні мережі намагаються вирішувати завдання шляхом статистичної апроксимації та навчання на прикладах.
Нейронні мережі є наріжним каменем потужних систем штучного інтелекту, таких як модель «обґрунтування» OpenAI o1 . Але, як стверджують прихильники символічного штучного інтелекту, вони не кінець, усе-все-все; Ці прихильники стверджують, що символічний штучний інтелект може мати кращі можливості для ефективного кодування світових знань, обґрунтування складних сценаріїв і «пояснення», як вони прийшли до відповіді.
«Напрочуд бачити контраст між постійним, разючим прогресом у подібних тестах і тим часом мовні моделі, включно з новішими з «міркуванням», продовжують боротися з деякими простими проблемами здорового глузду», — сказав TechCrunch Вінс Конітцер, професор інформатики Університету Карнегі-Меллона, який спеціалізується на ШІ. «Я не думаю, що все це лише дим і дзеркала, але це показує, що ми все ще не знаємо, якої поведінки очікувати від наступної системи. Ці системи, імовірно, будуть дуже ефективними, тому нам терміново потрібно набагато краще зрозуміти їх і ризики, які вони становлять».
AlphaGeometry2, можливо, демонструє, що два підходи — маніпуляції символами та нейронні мережі — разом є багатообіцяльним шляхом у пошуках узагальненого ШІ. Дійсно, згідно з документом DeepMind, o1, який також має архітектуру нейронної мережі, не міг вирішити жодної з проблем IMO, на які зміг відповісти AlphaGeometry2.
Це може бути не так вічно. У статті команда DeepMind заявила, що знайшла попередні докази того, що мовна модель AlphaGeometry2 здатна генерувати часткові розв'язання проблем без допомоги символічного механізму.
«[Отримані] результати підтверджують ідеї про те, що великі мовні моделі можуть бути самодостатніми, не залежачи від зовнішніх інструментів [таких як символічні механізми], — написала команда DeepMind у статті, — але поки швидкість [моделі] не покращиться і галюцинації не будуть повністю вирішені, інструменти залишатимуться важливими для математичних програм».