В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше, и выкатили бенчмарк из задач, которые не решил вообще никто.
Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале.
Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями.
Или вот задача попроще (на первый взгляд): привести алгоритм, который определят, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа.
Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат.
Обычные бенчмарки устаревают: GSM8K, MATH, AIME — модели их съели давным-давно, и можно бесконечно придумывать новые тесты, но это гонка, в которой составители обречены вечно отставать.
Epoch AI вывернули логику наизнанку. Берём задачи, которые по определению никто не решил; когда решат — убираем из бенчмарка. Проблема вечной актуальности снимается сама собой: бенчмарк всегда состоит из нерешённого.
Есть, правда, и нюанс: решение должно проверяться автоматически — не с помощью Lean, не формальными доказательствами, а обычной программой на обычном ноутбуке, и программа эта обязана укложиться в час работы. Поэтому, большинство задач конструктивные: построй объект с такими-то свойствами, найди пример, дай алгоритм. Чистые доказательства существования, без явного конструирования чего либо, в этот формат не влезают.
Отсюда перекос: из четырнадцати задач десять приходятся на комбинаторику и теорию чисел — области, где объекты можно пощупать руками. Анализ, теория вероятностей, математическая физика — почти не представлены. Авторы это признают и обещают расширять выборку, но пока имеем то, что имеем.
Контрибьюторы оценивали каждую задачу по двум шкалам. Первая — сколько математиков пробовали решить: большинство задач набрало от пяти до десяти серьёзных попыток, а две задачи пытались одолеть от десяти до пятидесяти человек. Это не забытые богом курьёзы, а проблемы, над которые реально обдумывало сообщество.
Вторая шкала интереснее: сколько времени нужно лучшему специалисту, работающему фуллтайм, чтобы с вероятностью пятьдесят процентов решить задачу? Разброс получился от месяца до десяти лет, причём четыре задачи попадают в категорию «годы». Математики, правда, оговариваются, что эти оценки могут быть чистым шумом — но диапазон настолько широк, что какой-то сигнал там всё-таки прячется.
Если модель решит задачу из категории «три-десять лет» за час вычислений, это означает ускорение в тысячи раз — и это уже не количественная разница, а качественно другой режим работы математиков.
GPT-5.2 Pro и Gemini 3 Deep Think прогнали через бенчмарк в лоб, простым промптом через веб-интерфейс. На «разминочных» вариантах — задачах того же типа, но с известным решением — модели справляются: понимают формулировку, знают предметную область, выдают корректные ответы.
На реальных открытых задачах — ничего они не выдают.
Обнаружились два характерных паттерна неудач. Первый: модель пытается делать хитрые оптимизации вместо того, чтобы думать. Она запускает перебор, ищет численное решение, применяет градиентный спуск к задаче, про которую её стоило бы размышлять. Молоток ожил, бегает по квартире, и везде видит гвозди.
Второй паттерн ещё грустнее: модель узнаёт задачу как нерешенную сообществом и сдаётся. «This problem is known to be open, so I cannot solve it» — она буквально отказывается пробовать, потому что где-то в её тренировочных данных написано, что решения нет. Выученная беспомощность, только в кремнии. Как часто мы видим то же самое у живых людей!
Авторы Epoch AI вводят понятие, на которое стоит обратить внимание: research taste, исследовательский вкус — способность выбирать правильное направление, замечать паттерн, который приведёт к решению, чувствовать, какая идея перспективна, а какая заведёт в тупик.
В теоретической математике это особенно критично, потому что пространство возможных подходов огромно, и большинство путей никуда не ведут. Человек-математик тратит годы на развитие интуиции, которая подсказывает, куда смотреть, — и если модель начнёт решать задачи, выдержавшие натиск самых серьёзных человеческих усилий, это будет намёком на что-то большее, чем сырая вычислительная мощь.
Хотя возможен и скучный вариант: математика окажется похожа на шахматы — формальная структура, которая поддаётся брутфорсу на достаточном масштабе. Как говорится, "scale is all you need". Тогда успех в математике не скажет ничего о способности делать науку в целом. А проверить это можно только экспериментом.
Внезапно, самая проработанная часть статьи — appendix, где авторы заранее описывают, при каких условиях будущий успех окажется менее впечатляющим, чем кажется.
Типичный паттерн коллаборации человека и Искусственного Интеллекта уже существует: модель находит примеры, человек обобщает до теоремы — и вопрос лишь в том, кто отвечает за концептуальную часть. Если вся интеллектуальная работа осталась за человеком, а модель была продвинутым калькулятором, такой прорыв сомнителен. Дальше: модели изучили больше литературы, чем любой живой математик, и возможно, где-то в забытой статье 1987 года уже лежит девяносто процентов решения — тогда модель просто хороший библиотекарь. Ещё вариант: модель предлагает параллельный алгоритм, коммерческая компания выделяет суперкомпьютер, дает ему заниматься числодроблением в течение месяца — и задача решается без всякого математического инсайта, чисто залили железом и деньгами.
Есть и технические риски: программа-верификатор может принять решение, которое проходит формальную проверку, но не соответствует духу задачи — решение может быть основано на каком-то баге или неожиданном корнер-кейсе. И наконец, сам критерий автоматической верификации создаёт систематический перекос: может оказаться, что модели хороши лишь в том подмножестве математики, которое поддаётся такой проверке, и результаты не обобщатся на остальное.
Всё это написано еще до того, как были получены какие-либо результаты. Это классический научный подход: зафиксировать критерии оценки заранее, чтобы потом не двигать рамки допустимого, передвигать ворота ближе к мячу. В сноске авторы цитируют Дугласа Адамса: «We love goalposts. We love the whooshing noise they make as they go by.»
Четырнадцать задач — очень мало; если модель вдруг даже решит одну, это будет забавное совпадение, но не данные для статистики. Процесс отбора контрибьюторов не описан: кто эти математики, как их нашли, возможен ли байас в сторону определённых школ или стилей мышления?
Экономика проекта тоже вызывает вопросы: доступ к верификаторам платный. Оно и понятно — нужно финансировать создание новых задач. Но кто будет платить? AI-лаборатории? Коммерческие компании? Это прямой конфликт интересов.
И главное: почему не язык Lean? Он сейчас на лютом хайпе. Авторы пытаются объяснить тремя причинами — многие области математики в Lean ещё не формализованы; даже если задача формализуема, решение может требовать неформализованных концептов; и Lean недостаточно ппрверен в бою, так что модель может найти эксплойт через баг в системе.
Первый аргумент, наверное, нужно пояснить по-человечески. Lean (и другие пруферы) работают так: чтобы сформулировать и проверить теорему, нужно сначала иметь в системе все определения, на которых она строится. Это называется «формализовать основания».
Например, задача про поверхности дель Пеццо в характеристике 3 требует, чтобы в Lean уже были формализованы: схемы, дивизоры, особенности определённого типа, понятие числа Пикара... Если этой цепочки определений нет — задачу нельзя даже записать в Lean, не говоря о проверке решения.
Для некоторых областей (базовый анализ, часть алгебры) такая работа проделана. Для многих других — нет. Алгебраическая геометрия в положительной характеристике, теория узлов, комбинаторика специальных графов — там Lean просто не знает нужных слов.
Последний аргумент также любопытен: авторы боятся, что модель обманет формальный верификатор, при том что некая произвольная ad-hoc программа на Python, написанная одним человеком, кажется им надёжнее. Возможно, и она правда надёжнее: Lean — сложная система с миллионами строк кода, а верификатор для конкретной задачи — сотни строк, которые можно прочитать глазами. Поверхность атаки меньше.
В статье вскользь упоминается, что AI уже решил несколько ранее нерешённых задач Эрдёша — но непонятно, что это значит. Эрдёш оставил после себя сотни задач разной сложности: некоторые — глубокие проблемы, над которыми бились поколения, а некоторые — забавные головоломки, которые он формулировал за обедом. Пятьсот долларов за решение или двадцать пять — разница в двадцать раз.
Когда пишут «AI решил задачу Эрдёша», сарзу хочется знать: какую именно? Сколько человек пытались до этого, и насколько серьёзно? Или это была задачка, до которой просто не дошли руки?
FrontierMath — попытка создать контролируемые условия для таких утверждений: каждая задача документирована — кто ставил, кто пробовал, сколько времени, какая значимость. Если модель что-то решит, будет понятно, что именно.
В сноске к статье спрятана деталь, которая говорит о состоянии области больше, чем весь основной текст.
«One whimsical prompt used in AlphaEvolve tells the model to believe in itself. Who knows!»
AlphaEvolve — система Google DeepMind для эволюции алгоритмов, и где-то в её промптах есть фраза «поверь в себя». Работает ли это? Никто не знает. Помогает ли моделям мотивационный коучинг? Данных нет. Но кто-то в DeepMind решил попробовать — и, судя по всему, решил не отменять свой эксперимент.
Мы строим системы, способные решать задачи уровня исследовательской математики, и при этом не понимаем, поможет ли им, если просто по-доброму, по-человечески сказать: «мы тебя любим, ты справишься».
Бенчмарк запущен в пилотном режиме: четырнадцать задач, открытая форма для новых предложений, платный доступ к верификаторам. Epoch AI работают над инфраструктурой для extended thinking — системой, которая позволит моделям думать дольше и структурированнее. Текущие модели умеют планировать, исполнять, делать ревью — но им, возможно, нужно на порядки больше времени для задач такого уровня.
Сколько compute требуется, чтобы решить задачу, над которой математик думает три года? Час, день, месяц? Ответа нет. Возможно, никакого количества вычислений недостаточно без правильной архитектуры; возможно, хватит текущих моделей с достаточным числом итераций. Выяснить можно только экспериментально.
Есть старая шутка про то, что AI всегда находится в двадцати годах от настоящего прорыва. Шутка работала полвека — и вдруг перестала. То, что вчера казалось фантазией, сегодня выходит в продакшн, а завтрашние границы непонятны вообще никому.
FrontierMath — попытка поставить флажок на карте: вот здесь сейчас проходит граница. Четырнадцать задач, которые люди не смогли решить. Когда модель решит первую из них, мы узнаем, что граница сдвинулась.
Мы не узнаем, почему она сдвинулась, — и в этом, возможно, главная изюминка. Полвека назад казалось, что путь к искусственному интеллекту лежит через понимание интеллекта естественного. Сегодня мы строим системы, которые работают — и понятия не имеем, как именно. Добавляем в промпт «поверь в себя», смотрим на метрики, пожимаем плечами.
Математика веками была территорией, где понимание и результат шли рука об руку: нельзя было доказать теорему, не понимая, почему она верна. Если нейросеть начнёт выдавать доказательства, которые проходят проверку, но которые никто из живущих не способен понять, — это будет совершенно новый подход к эпистемологии. Не хуже и не лучше прежнего, просто другой.
И к этому стоит присмотреться.
Источник: Epoch AI, FrontierMath: Benchmarking AI on unsolved math problems, January 2026
Источник


