БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

Признайтесь: вы когда-нибудь задумывались, можно ли уже сегодня доверить ИИ олимпиадную задачу по математике? Не просто посчитать пример, а распутать геометричеПризнайтесь: вы когда-нибудь задумывались, можно ли уже сегодня доверить ИИ олимпиадную задачу по математике? Не просто посчитать пример, а распутать геометриче

Математическая битва ИИ: сравнение ChatGPT 5.2 Pro и Gemini 3 Pro в решении задач

Автор: ProBlockChain

Источник: ProBlockChain

2026/01/26 01:53

Признайтесь: вы когда-нибудь задумывались, можно ли уже сегодня доверить ИИ олимпиадную задачу по математике? Не просто посчитать пример, а распутать геометрическую спираль, оптимизировать “спичечное” представление числа или найти все неоднозначные моменты на странных часах без цифр?

Я – да. И поэтому, когда в конце 2025 года OpenAI анонсировала ChatGPT 5.2 Pro, заточенный именно под сложные рассуждения и научные задачи, я понял: пора проверять по-настоящему.

Мы решили устроить настоящую математическую дуэль между двумя титанами: ChatGPT 5.2 Pro и уже успевшим нашуметь Gemini 3 Pro от Google. Без веб-поиска, без подсказок – только чистая логика, длинные цепочки рассуждений и, где нужно, аккуратный Python-код.

Кто из них не собьётся на полпути и точнее считает в уме, а кто всё ещё путается в симметриях? Запускаем восемь сложнейших задач – и смотрим, кто выйдет победителем в этой битве алгоритмических умов.

Результаты оказались не просто интересными. Готовы узнать, кто победил?

На фоне недавних новостей о том, что большие языковые модели начали уверенно справляться с нетривиальной математикой, стало интересно проверить, а кто же сейчас реально сильнее считает. Поэтому я решил устроить небольшой математический тест между двумя тяжеловесами: ChatGPT 5.2 Pro и Gemini 3 Pro.

ChatGPT 5.2 вышла сравнительно недавно – 11 декабря прошлого года – и, по сути, стала агрессивным ответом OpenAI на успех Gemini 3 Pro. OpenAI всерьёз восприняла конкурента и прокачала модель по всем ключевым направлениям, включая логику, рассуждения и работу со сложными задачами.

В тот же день компания обновила и свою исследовательскую версию – ChatGPT 5.2 Pro, инструмент, заточенный под тяжёлую интеллектуальную работу: сложную математику, научные задачи, программирование и длинные цепочки рассуждений. Именно эту версию и имеет смысл сравнить с Gemini 3 Pro.

Какие задачи мы будем тестировать

Для этого теста я отобрал 8 непростых математических задач и скормил их обеим моделям: Gemini 3 Pro и ChatGPT 5.2 Pro. Условия были одинаковые – не просто выдать ответ, а показать ход рассуждений и объяснить, как модель к нему пришла.

Все задачи взяты из Project Euler. Это важный момент: у этих задач нет готовых решений в открытом доступе в виде “шаг за шагом”, так что подсмотреть правильный ответ в интернете не получится. А чтобы уж совсем исключить читерство, я дополнительно попросил модели не пользоваться веб-поиском и решать всё исключительно “из головы”.

Отдельно интересно, что в большинстве случаев модели предпочитали не выводить ответ напрямую, а генерировать Python-скрипт, который этот ответ считает. И это, на самом деле, абсолютно логично: задачи такого уровня часто упираются в перебор, точные вычисления и аккуратную работу с числами – тут код зачастую надёжнее.

Так что регуляторы мощности выкручиваем на максимум…

…и запускаем тесты. В конце посмотрим на результаты и попробуем понять, какой из этих ИИ подходит для доказательств новых теорем Ферма.

А полигоном для испытаний стал BotHub.

Сервис удобен тем, что для доступа не требуется VPN и можно использовать применять российскую карту. Если зарегистрироваться по этой ссылке, можно получить 100 000 бесплатных капсов и протестировать возможности сайта.

Ну что, вперёд, к тестам!

Задача № 891. Двусмысленные часы

Сложность: ★★★★★★★☆☆☆

На первый взгляд, это почти игрушечная задача про странные аналоговые часы, но за внешней простотой скрывается весьма нетривиальная математика. Из-за отсутствия меток, одинакового внешнего вида стрелок и неизвестной ориентации циферблата задача сводится не к “угадыванию времени”, а к анализу симметрий и перестановок стрелок во времени. По сути, требуется перебрать все моменты, в которых одна конфигурация углов между стрелками может быть получена из другой – с точностью до поворота и переименования стрелок.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

В этой задаче особенно хорошо проявилась разница в аккуратности математического анализа. Gemini 3 Pro пошел по правильному пути: формализовал движение стрелок, свел задачу к системе линейных сравнений и даже выдал Python-скрипт для подсчета, однако допустил логическую ошибку при объединении решений для разных перестановок, из-за чего итоговое число оказалось завышенным (2050586 вместо корректного 1541414).

ChatGPT 5.2 Pro, напротив, сразу выдал правильный ответ 1541414 и при этом более строго разобрал структуру задачи: учел симметрии между прямыми и обратными перестановками стрелок и корректно посчитал вклад каждого “типа неоднозначности”. Показательно, что здесь ChatGPT обошелся без генерации кода, что косвенно указывает на более устойчивую работу с длинными цепочками рассуждений и большими целочисленными вычислениями “в голове”.

Задача № 932. 2025

Сложность: ★★★★★★★☆☆☆

Эта задача выглядит как аккуратная числовая головоломка, но на деле быстро уводит в сторону теории чисел и аккуратной работы с разрядами. Нужно понять, при каких разбиениях числа на две части их конкатенация может совпасть с квадратом суммы, а затем обобщить это наблюдение на большие разрядности. В лоб такой перебор не работает уже на десятках цифр, поэтому ключ здесь – найти математическую структуру задачи и превратить ее в эффективно считаемый алгоритм.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

В задаче про 2025-числа обе модели справились корректно, но продемонстрировали разные стили мышления. Gemini 3 Pro пошел по классическому инженерному пути: вывел формулу для кандидатов, аккуратно ограничил диапазоны и реализовал перебор в виде Python-скрипта, что особенно удобно для проверки больших разрядностей вплоть до 16 цифр. ChatGPT 5.2 Pro, в свою очередь, выдал сразу готовое число 72673459417881349, опираясь на более абстрактный анализ условий и внутренних вычислений.

Примечательно, что при всей “комбинаторной” природе задачи количество допустимых 2025-чисел оказывается очень небольшим, а основная сложность здесь – не в переборе, а в правильной математической фильтрации кандидатов, с чем обе модели успешно справились.

Задача № 868. Математика колокольни

Сложность: ★★★★★★★☆☆☆

Эта задача на первый взгляд выглядит как очередная вариация на тему перестановок, но на деле она завязана на весьма специфический алгоритм генерации всех возможных порядков – так называемый “метод звонарей”. Здесь важно не просто посчитать количество перестановок, а строго следовать заданным правилам обмена соседних элементов, что превращает задачу в аккуратное моделирование длинного, но детерминированного процесса.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

В этом тесте обе модели вновь пришли к правильному ответу – 3832914911887589, – однако сделали это разными способами. Gemini 3 Pro явно распознал задачу как вариант алгоритма Джонсона – Троттера для генерации перестановок и аккуратно реализовал его в виде Python-скрипта, что позволило надежно отследить количество обменов даже для строки длиной 18 символов. ChatGPT 5.2 Pro, в свою очередь, снова ограничился выводом готового числа.

При такой длине строки прямой перебор невозможен даже теоретически, и ключом к решению становится именно понимание математической природы процесса, а не вычислительная мощность.

Задача № 893. Спички

Сложность: ★★★★★★★★☆☆

Это уже задача не столько про арифметику, сколько про оптимизацию представлений чисел. Нужно минимизировать “стоимость” числа в спичках, выбирая между прямой записью цифрами и составными выражениями с умножением и сложением, причем без скобок и с жестким приоритетом операций. При переходе от отдельных чисел к сумме T(10^6) задача быстро превращается в нетривиальную динамику с перебором разложений, где важно не только найти локально выгодные представления, но и эффективно просуммировать результат для миллиона значений.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

На этой задаче разница в устойчивости моделей стала особенно заметной. Gemini 3 Pro, хотя и корректно уловил общую идею минимизации через факторизацию и динамическое программирование, выдал два разных результата: аналитически – 26625806 и через Python-скрипт – 26688582, причем оба оказались неверными, хотя второй был уже опасно близок к правильному значению.

ChatGPT 5.2 Pro повел себя аккуратнее: сразу сфокусировался на алгоритме, корректно учел влияние умножений на “стоимость” числа и выдал рабочий скрипт, который стабильно дает правильный ответ 26688208.

Именно в этой задаче мелкая логическая ошибка или неточный переход в динамике легко уводят результат на тысячи единиц, и ChatGPT здесь показал более надежную работу с пограничными случаями и масштабированием до 10^6 .

Задача № 894. Спираль окружностей

Сложность: ★★★★★★★★☆☆

Это уже чистая геометрия. Бесконечная последовательность окружностей, связанных масштабированием и поворотом относительно начала координат, образует сложную самоподобную спираль. Условия касания фиксированных окружностей жестко задают коэффициент масштабирования и угол поворота, а искомая величина – суммарная площадь криволинейных треугольников между ними – требует аккуратного учета геометрических соотношений и сходимости бесконечного процесса.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

Начиная с этой задачи, обе модели окончательно ушли в сторону численного моделирования и генерации Python-скриптов – аналитически замкнуть решение здесь уже крайне сложно.

И Gemini 3 Pro, и ChatGPT 5.2 Pro корректно восстановили геометрию спирали, нашли параметры масштабирования и поворота из условий касания, а затем аккуратно просуммировали площади круговых треугольников как сходящийся ряд. При всей сложности конструкции оба скрипта сошлись к одному и тому же результату: 0,7718678168.

Задача № 879. Пароль на сенсорном экране

Сложность: ★★★★★★★★☆☆

Это комбинаторная задача, замаскированная под вполне прикладной сценарий – графический пароль на сенсорном экране. Из-за правил “протягивания” через промежуточные точки и их последующего исчезновения задача быстро выходит за рамки простого перебора путей и превращается в сложный графовый процесс с динамически меняющимся состоянием. Для сетки 4 × 4 количество вариантов становится астрономическим, и решить задачу можно только за счет строгой формализации правил и эффективного перебора состояний.

Ответ Gemini 3 Pro

Ответ ChatGPT 5.2 Pro

В этом тесте обе модели показали практически эталонное поведение. И Gemini 3 Pro, и ChatGPT 5.2 Pro корректно свели задачу к обходу графа с учетом промежуточных точек, симметрий и ограничения на повторное использование вершин, после чего реализовали аккуратный перебор с мемоизацией состояний. В результате оба скрипта сошлись к одному и тому же числу: 4350069824940.

Здесь ключевым фактором успеха стала не столько вычислительная мощность, сколько правильная модель переходов между состояниями: любая неточность в обработке “пролетов” через точки или порядка их исчезновения мгновенно дает ошибку на порядки.

Задача № 935. Катящийся квадрат

Сложность: ★★★★★★★★★☆

Это, пожалуй, одна из самых “геометрически тяжелых” задач во всем тесте. На первый взгляд она описывает наглядный механический процесс – квадрат, катящийся без скольжения внутри другого квадрата, – но за этим скрывается глубокая связь между геометрией, теорией вращений и диофантовыми условиями периодичности. Фактически требуется понять, при каких значениях параметра последовательность поворотов замыкается, а затем посчитать количество таких значений при гигантском ограничении на число шагов.

Ответ Gemini 3 Pro Ответ ChatGPT 5.2 Pro

Здесь обе модели впервые по-настоящему “сломались”, и это вполне показательно. Gemini 3 Pro не смог довести рассуждения до конца и завис уже на этапе попытки формализовать динамику вращений. ChatGPT 5.2 Pro продвинулся дальше – он корректно распознал, что задача сводится к анализу рациональности углов поворота и их связи с алгебраическими числами, – но споткнулся на этапе самопроверки: уже известные контрольные значения F(6) и F(100) не сошлись, что прямо указывало на ошибку в формуле или коде. В итоге обе модели не смогли дойти до финального ответа, который оказался равен 759908921637225. Этот результат хорошо иллюстрирует пределы текущих LLM: задачи, где требуется совместить строгую геометрию, теорию чисел и масштабирование до 10^8 , пока остаются для них крайне сложными даже при наличии примеров и проверочных точек.

Задача № 865. Трипликатные числа

Сложность: ★★★★★★★★★☆

Эта задача выглядит как игра с цифрами, но на самом деле представляет собой нетривиальную комбинаторную проблему с элементами формальных языков и динамического программирования. Условие “удаления троек одинаковых цифр”, по сути, задает редукционную систему, где важен не порядок удалений, а сам факт полной сократимости числа. При переходе к T(10^4) задача мгновенно выходит за рамки перебора и требует строгой математической модели состояний и переходов между ними.

Ответ Gemini 3 Pro Ответ ChatGPT 5.2 Pro

На этой задаче разрыв между моделями стал максимальным. Gemini 3 Pro корректно уловил идею сведения задачи к автомату состояний, но на практике так и не смог довести вычисления до конца: модель зависала сразу после попытки запуска скрипта, причем повторный прогон ситуацию не исправил.

ChatGPT 5.2 Pro, напротив, построил полноценную динамическую модель с учетом “стека” незакрытых цифр, аккуратно реализовал переходы и посчитал результат по модулю, что критично при столь огромном числе состояний. Итог – корректный ответ 761181918. Здесь успех определился не столько вычислительной мощностью, сколько умением формализовать процесс редукции цифр как конечное число состояний, что ChatGPT сделал заметно лучше.

Подсчитываем результаты

Итак, все задачи наконец-то готовы. Давайте посмотрим, кто сколько нарешал!

Итак, GPT-5.2 Pro решил 7/8 задач, Gemini 3 Pro 4/8 задач. Наш безоговорочный победитель сегодня – ChatGPT 5.2 Pro!!!

Отдельно стоит отметить № 893 – именно на ней оба ИИ ощутимо задумались. Дело в том, что скрипты-решатели для этой задачи фактически сводятся к сложению и сравнению порядка 5 × 10⁹ математических выражений. Для локально запущенного Python это уже почти силовой экстрим, так что неудивительно, что именно здесь расчёты заняли заметное время. В итоге версия скрипта от ChatGPT 5.2 Pro отработала примерно за две минуты, а вариант от Gemini 3 Pro – за пять. Для всех остальных задач скрипты выдали ответ практически мгновенно.

Такой отрыв, впрочем, не возникает на пустом месте. GPT-5.2 Pro – это целый внутренний конвейер из сотен промежуточных попыток и альтернативных стратегий решения. Модель буквально перебирает разные подходы, постепенно сужая пространство поиска. Побочный эффект очевиден: среднее время генерации ответа легко уходит в диапазон 5–10 минут, а иногда и больше.

Отсюда и практический вывод: для этой модели критично важно сразу задать корректный промпт и приложить максимум исходных данных. А если задача не выглядит как кандидат на Нобелевку, разумнее сначала попробовать что-то попроще – например, GPT-5.2 Thinking.

5.2 Pro способна выдать за один ответ до 128 000 токенов, что эквивалентно примерно 90–110 тысячам символов с пробелами. Этого объёма хватает, чтобы сгенерировать небольшую художественную повесть, внушительную курсовую, магистерскую диссертацию или даже полноценную ВКР (выпускную квалификационную работу).

Спасибо за прочтение!

А что думаете вы? Какой ИИ вы чаще всего используете для решения логических и научных задач? Делитесь в комментариях!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.