Признайтесь: вы когда-нибудь задумывались, можно ли уже сегодня доверить ИИ олимпиадную задачу по математике? Не просто посчитать пример, а распутать геометрическую спираль, оптимизировать “спичечное” представление числа или найти все неоднозначные моменты на странных часах без цифр?
Я – да. И поэтому, когда в конце 2025 года OpenAI анонсировала ChatGPT 5.2 Pro, заточенный именно под сложные рассуждения и научные задачи, я понял: пора проверять по-настоящему.
Мы решили устроить настоящую математическую дуэль между двумя титанами: ChatGPT 5.2 Pro и уже успевшим нашуметь Gemini 3 Pro от Google. Без веб-поиска, без подсказок – только чистая логика, длинные цепочки рассуждений и, где нужно, аккуратный Python-код.
Кто из них не собьётся на полпути и точнее считает в уме, а кто всё ещё путается в симметриях? Запускаем восемь сложнейших задач – и смотрим, кто выйдет победителем в этой битве алгоритмических умов.
Результаты оказались не просто интересными. Готовы узнать, кто победил?
На фоне недавних новостей о том, что большие языковые модели начали уверенно справляться с нетривиальной математикой, стало интересно проверить, а кто же сейчас реально сильнее считает. Поэтому я решил устроить небольшой математический тест между двумя тяжеловесами: ChatGPT 5.2 Pro и Gemini 3 Pro.
ChatGPT 5.2 вышла сравнительно недавно – 11 декабря прошлого года – и, по сути, стала агрессивным ответом OpenAI на успех Gemini 3 Pro. OpenAI всерьёз восприняла конкурента и прокачала модель по всем ключевым направлениям, включая логику, рассуждения и работу со сложными задачами.
В тот же день компания обновила и свою исследовательскую версию – ChatGPT 5.2 Pro, инструмент, заточенный под тяжёлую интеллектуальную работу: сложную математику, научные задачи, программирование и длинные цепочки рассуждений. Именно эту версию и имеет смысл сравнить с Gemini 3 Pro.
Для этого теста я отобрал 8 непростых математических задач и скормил их обеим моделям: Gemini 3 Pro и ChatGPT 5.2 Pro. Условия были одинаковые – не просто выдать ответ, а показать ход рассуждений и объяснить, как модель к нему пришла.
Все задачи взяты из Project Euler. Это важный момент: у этих задач нет готовых решений в открытом доступе в виде “шаг за шагом”, так что подсмотреть правильный ответ в интернете не получится. А чтобы уж совсем исключить читерство, я дополнительно попросил модели не пользоваться веб-поиском и решать всё исключительно “из головы”.
Отдельно интересно, что в большинстве случаев модели предпочитали не выводить ответ напрямую, а генерировать Python-скрипт, который этот ответ считает. И это, на самом деле, абсолютно логично: задачи такого уровня часто упираются в перебор, точные вычисления и аккуратную работу с числами – тут код зачастую надёжнее.
Так что регуляторы мощности выкручиваем на максимум…
…и запускаем тесты. В конце посмотрим на результаты и попробуем понять, какой из этих ИИ подходит для доказательств новых теорем Ферма.
А полигоном для испытаний стал BotHub.
Сервис удобен тем, что для доступа не требуется VPN и можно использовать применять российскую карту. Если зарегистрироваться по этой ссылке, можно получить 100 000 бесплатных капсов и протестировать возможности сайта.
Ну что, вперёд, к тестам!
Сложность: ★★★★★★★☆☆☆
На первый взгляд, это почти игрушечная задача про странные аналоговые часы, но за внешней простотой скрывается весьма нетривиальная математика. Из-за отсутствия меток, одинакового внешнего вида стрелок и неизвестной ориентации циферблата задача сводится не к “угадыванию времени”, а к анализу симметрий и перестановок стрелок во времени. По сути, требуется перебрать все моменты, в которых одна конфигурация углов между стрелками может быть получена из другой – с точностью до поворота и переименования стрелок.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
В этой задаче особенно хорошо проявилась разница в аккуратности математического анализа. Gemini 3 Pro пошел по правильному пути: формализовал движение стрелок, свел задачу к системе линейных сравнений и даже выдал Python-скрипт для подсчета, однако допустил логическую ошибку при объединении решений для разных перестановок, из-за чего итоговое число оказалось завышенным (2050586 вместо корректного 1541414).
ChatGPT 5.2 Pro, напротив, сразу выдал правильный ответ 1541414 и при этом более строго разобрал структуру задачи: учел симметрии между прямыми и обратными перестановками стрелок и корректно посчитал вклад каждого “типа неоднозначности”. Показательно, что здесь ChatGPT обошелся без генерации кода, что косвенно указывает на более устойчивую работу с длинными цепочками рассуждений и большими целочисленными вычислениями “в голове”.
Сложность: ★★★★★★★☆☆☆
Эта задача выглядит как аккуратная числовая головоломка, но на деле быстро уводит в сторону теории чисел и аккуратной работы с разрядами. Нужно понять, при каких разбиениях числа на две части их конкатенация может совпасть с квадратом суммы, а затем обобщить это наблюдение на большие разрядности. В лоб такой перебор не работает уже на десятках цифр, поэтому ключ здесь – найти математическую структуру задачи и превратить ее в эффективно считаемый алгоритм.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
В задаче про 2025-числа обе модели справились корректно, но продемонстрировали разные стили мышления. Gemini 3 Pro пошел по классическому инженерному пути: вывел формулу для кандидатов, аккуратно ограничил диапазоны и реализовал перебор в виде Python-скрипта, что особенно удобно для проверки больших разрядностей вплоть до 16 цифр. ChatGPT 5.2 Pro, в свою очередь, выдал сразу готовое число 72673459417881349, опираясь на более абстрактный анализ условий и внутренних вычислений.
Примечательно, что при всей “комбинаторной” природе задачи количество допустимых 2025-чисел оказывается очень небольшим, а основная сложность здесь – не в переборе, а в правильной математической фильтрации кандидатов, с чем обе модели успешно справились.
Сложность: ★★★★★★★☆☆☆
Эта задача на первый взгляд выглядит как очередная вариация на тему перестановок, но на деле она завязана на весьма специфический алгоритм генерации всех возможных порядков – так называемый “метод звонарей”. Здесь важно не просто посчитать количество перестановок, а строго следовать заданным правилам обмена соседних элементов, что превращает задачу в аккуратное моделирование длинного, но детерминированного процесса.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
В этом тесте обе модели вновь пришли к правильному ответу – 3832914911887589, – однако сделали это разными способами. Gemini 3 Pro явно распознал задачу как вариант алгоритма Джонсона – Троттера для генерации перестановок и аккуратно реализовал его в виде Python-скрипта, что позволило надежно отследить количество обменов даже для строки длиной 18 символов. ChatGPT 5.2 Pro, в свою очередь, снова ограничился выводом готового числа.
При такой длине строки прямой перебор невозможен даже теоретически, и ключом к решению становится именно понимание математической природы процесса, а не вычислительная мощность.
Сложность: ★★★★★★★★☆☆
Это уже задача не столько про арифметику, сколько про оптимизацию представлений чисел. Нужно минимизировать “стоимость” числа в спичках, выбирая между прямой записью цифрами и составными выражениями с умножением и сложением, причем без скобок и с жестким приоритетом операций. При переходе от отдельных чисел к сумме задача быстро превращается в нетривиальную динамику с перебором разложений, где важно не только найти локально выгодные представления, но и эффективно просуммировать результат для миллиона значений.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
На этой задаче разница в устойчивости моделей стала особенно заметной. Gemini 3 Pro, хотя и корректно уловил общую идею минимизации через факторизацию и динамическое программирование, выдал два разных результата: аналитически – 26625806 и через Python-скрипт – 26688582, причем оба оказались неверными, хотя второй был уже опасно близок к правильному значению.
ChatGPT 5.2 Pro повел себя аккуратнее: сразу сфокусировался на алгоритме, корректно учел влияние умножений на “стоимость” числа и выдал рабочий скрипт, который стабильно дает правильный ответ 26688208.
Именно в этой задаче мелкая логическая ошибка или неточный переход в динамике легко уводят результат на тысячи единиц, и ChatGPT здесь показал более надежную работу с пограничными случаями и масштабированием до .
Сложность: ★★★★★★★★☆☆
Это уже чистая геометрия. Бесконечная последовательность окружностей, связанных масштабированием и поворотом относительно начала координат, образует сложную самоподобную спираль. Условия касания фиксированных окружностей жестко задают коэффициент масштабирования и угол поворота, а искомая величина – суммарная площадь криволинейных треугольников между ними – требует аккуратного учета геометрических соотношений и сходимости бесконечного процесса.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
Начиная с этой задачи, обе модели окончательно ушли в сторону численного моделирования и генерации Python-скриптов – аналитически замкнуть решение здесь уже крайне сложно.
И Gemini 3 Pro, и ChatGPT 5.2 Pro корректно восстановили геометрию спирали, нашли параметры масштабирования и поворота из условий касания, а затем аккуратно просуммировали площади круговых треугольников как сходящийся ряд. При всей сложности конструкции оба скрипта сошлись к одному и тому же результату: 0,7718678168.
Сложность: ★★★★★★★★☆☆
Это комбинаторная задача, замаскированная под вполне прикладной сценарий – графический пароль на сенсорном экране. Из-за правил “протягивания” через промежуточные точки и их последующего исчезновения задача быстро выходит за рамки простого перебора путей и превращается в сложный графовый процесс с динамически меняющимся состоянием. Для сетки 4 × 4 количество вариантов становится астрономическим, и решить задачу можно только за счет строгой формализации правил и эффективного перебора состояний.
Ответ Gemini 3 Pro
Ответ ChatGPT 5.2 Pro
В этом тесте обе модели показали практически эталонное поведение. И Gemini 3 Pro, и ChatGPT 5.2 Pro корректно свели задачу к обходу графа с учетом промежуточных точек, симметрий и ограничения на повторное использование вершин, после чего реализовали аккуратный перебор с мемоизацией состояний. В результате оба скрипта сошлись к одному и тому же числу: 4350069824940.
Здесь ключевым фактором успеха стала не столько вычислительная мощность, сколько правильная модель переходов между состояниями: любая неточность в обработке “пролетов” через точки или порядка их исчезновения мгновенно дает ошибку на порядки.
Сложность: ★★★★★★★★★☆
Это, пожалуй, одна из самых “геометрически тяжелых” задач во всем тесте. На первый взгляд она описывает наглядный механический процесс – квадрат, катящийся без скольжения внутри другого квадрата, – но за этим скрывается глубокая связь между геометрией, теорией вращений и диофантовыми условиями периодичности. Фактически требуется понять, при каких значениях параметра последовательность поворотов замыкается, а затем посчитать количество таких значений при гигантском ограничении на число шагов.
Ответ Gemini 3 Pro Ответ ChatGPT 5.2 Pro
Здесь обе модели впервые по-настоящему “сломались”, и это вполне показательно. Gemini 3 Pro не смог довести рассуждения до конца и завис уже на этапе попытки формализовать динамику вращений. ChatGPT 5.2 Pro продвинулся дальше – он корректно распознал, что задача сводится к анализу рациональности углов поворота и их связи с алгебраическими числами, – но споткнулся на этапе самопроверки: уже известные контрольные значения и
не сошлись, что прямо указывало на ошибку в формуле или коде. В итоге обе модели не смогли дойти до финального ответа, который оказался равен 759908921637225. Этот результат хорошо иллюстрирует пределы текущих LLM: задачи, где требуется совместить строгую геометрию, теорию чисел и масштабирование до
, пока остаются для них крайне сложными даже при наличии примеров и проверочных точек.
Сложность: ★★★★★★★★★☆
Эта задача выглядит как игра с цифрами, но на самом деле представляет собой нетривиальную комбинаторную проблему с элементами формальных языков и динамического программирования. Условие “удаления троек одинаковых цифр”, по сути, задает редукционную систему, где важен не порядок удалений, а сам факт полной сократимости числа. При переходе к задача мгновенно выходит за рамки перебора и требует строгой математической модели состояний и переходов между ними.
На этой задаче разрыв между моделями стал максимальным. Gemini 3 Pro корректно уловил идею сведения задачи к автомату состояний, но на практике так и не смог довести вычисления до конца: модель зависала сразу после попытки запуска скрипта, причем повторный прогон ситуацию не исправил.
ChatGPT 5.2 Pro, напротив, построил полноценную динамическую модель с учетом “стека” незакрытых цифр, аккуратно реализовал переходы и посчитал результат по модулю, что критично при столь огромном числе состояний. Итог – корректный ответ 761181918. Здесь успех определился не столько вычислительной мощностью, сколько умением формализовать процесс редукции цифр как конечное число состояний, что ChatGPT сделал заметно лучше.
Итак, все задачи наконец-то готовы. Давайте посмотрим, кто сколько нарешал!
Итак, GPT-5.2 Pro решил 7/8 задач, Gemini 3 Pro 4/8 задач. Наш безоговорочный победитель сегодня – ChatGPT 5.2 Pro!!!
Отдельно стоит отметить № 893 – именно на ней оба ИИ ощутимо задумались. Дело в том, что скрипты-решатели для этой задачи фактически сводятся к сложению и сравнению порядка 5 × 10⁹ математических выражений. Для локально запущенного Python это уже почти силовой экстрим, так что неудивительно, что именно здесь расчёты заняли заметное время. В итоге версия скрипта от ChatGPT 5.2 Pro отработала примерно за две минуты, а вариант от Gemini 3 Pro – за пять. Для всех остальных задач скрипты выдали ответ практически мгновенно.
Такой отрыв, впрочем, не возникает на пустом месте. GPT-5.2 Pro – это целый внутренний конвейер из сотен промежуточных попыток и альтернативных стратегий решения. Модель буквально перебирает разные подходы, постепенно сужая пространство поиска. Побочный эффект очевиден: среднее время генерации ответа легко уходит в диапазон 5–10 минут, а иногда и больше.
Отсюда и практический вывод: для этой модели критично важно сразу задать корректный промпт и приложить максимум исходных данных. А если задача не выглядит как кандидат на Нобелевку, разумнее сначала попробовать что-то попроще – например, GPT-5.2 Thinking.
5.2 Pro способна выдать за один ответ до 128 000 токенов, что эквивалентно примерно 90–110 тысячам символов с пробелами. Этого объёма хватает, чтобы сгенерировать небольшую художественную повесть, внушительную курсовую, магистерскую диссертацию или даже полноценную ВКР (выпускную квалификационную работу).
Спасибо за прочтение!
А что думаете вы? Какой ИИ вы чаще всего используете для решения логических и научных задач? Делитесь в комментариях!
Источник

