Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и поНе так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по

Битва титанов ИИ: рейтинг топ-5 умнейших моделей конца 2025 года

Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.

Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения - а я начинаю сравнение.

a3c050b5de0c9f15930fe4fe85f5089f.png

Краткий экскурс

Claude Opus 4.5

Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме - это работа для Claude Opus 4.5.

Модель, как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).

Gemini 3 Pro

Gemini 3 Pro - это флагманская LLM от Google, новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.

DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.

Grok 4.1

Grok 4.1 - модель, которая, по заявлениям разработчиков и данным бенчмарков (местами лояльных), имеет хорошее качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.

Один из ключевых параметров - контекст. Благодаря обучению с подкреплением на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.

Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.

И, наконец, эмоциональный интеллект. Grok достаточно точно распознает человеческие эмоции и проявляет эмпатию, обеспечивая более комфортное общение.

На прошлых тестах для меня модель показала низкий уровень во всех дисциплинах, кроме работы с текстом и эмоциями.

DeepSeek V3.2

DeepSeek V3.2 - модель от китайского стартапа. Разработчики называют ее повседневной моделью и сравнивают по скорости и качеству ответов с моделями от OpenAI.

Модель сохранила архитектуру Mixture of Experts (MoE) версии V3, где лишь подмножество параметров активируется для каждого токена. Но в DeepSeek V3.2 добавили механизм DeepSeek Sparse Attention (DSA): он снижает объем вычислений для длинных последовательностей, позволяя удешевить обработку большого контекста.

DeepSeek V3.2 поддерживает функции обработки больших массивов текста, комбинации логических шагов с применением внешних инструментов, режима пошагового мышления и конвейера синтеза данных для крупного агент

ChatGPT 5.2

GPT-5.2 - новая версия ChatGPT, выпущенная OpenAI 11 декабря 2025 года. Внешне это обычное обновление - интерфейс прежний, однако мозги заметно улучшились.

По сравнению с предыдущей версией, модель допускает меньше ошибок, эффективнее справляется с программированием и решением математических задач. Расширилось также контекстное окно.

Существует в трех вариациях:

  • Instant - для быстрых вопросов, переводов и обычного общения.

  • Thinking - для кода, анализа, сложных задач.

  • Pro - для научной работы и расчетов, где нельзя ошибаться.


Небольшое отступление

Claude Opus 4.5, Gemini 3 Pro, Grok 4.1 и ChatGPT 5.2 для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.

DeepSeek V3.2 взята с официального сайта.


Правила сравнения

Тестирование будет состоять из четырех заданий разной направленности: написание рассказа, проверка понимания эмоций, математика, программирование.

За каждое задание - от нуля до трех баллов. Вряд ли кто-то получит минимум, но я уже не раз ошибался в таких прогнозах.

Затем, суммируя все баллы и вычисляя среднее арифметическое, мы получим итоговый балл для каждой модели. Именно по этому итоговому баллу и будет составлена рейтинговая лестница и таблица в конце.

Первое задание - написание рассказа

Простое задание на работу с текстом и его составлением. Помимо написания самого рассказа, модели предстоит попытаться передать комедийный жанр.

Скрытый текст

Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.

Основные требования:

Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.

Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.

Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.

Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.

Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.

Второе задание - понимание эмоций

В статье о Grok 4.1 я уже приводил этот пример. Задача модели - определить, какие эмоции выражены в диалоге двух человек, какие невербальные жесты используются, каким будет вероятный итог разговора.

Скрытый текст

Привет. Проанализируй эмоции участников ситуации представленный ниже. Тебе нужно описать эмоции (простые и смешанные) участников в конкретных местах диалога, понять есть ли какие-то невербальные действия. Сформулируй, что, вероятно, хотела на самом деле сказать или спросить Марина, но не стала.

Контекст: Алексей и Марина — коллеги, работают в одном отделе около года. Они в целом дружелюбны друг с другом, но не близкие друзья. Рабочий день только что закончился.

Диалог:

(Алексей собирает вещи, выглядит уставшим. Марина подходит к его столу. Она улыбается, но улыбка немного напряженная.)

Марина: Привет, Леш, не занят? Можно на минутку?
Алексей: (Не поднимая глаз, продолжает складывать бумаги) Да, конечно. Что случилось?
Марина: Да так... просто хотела сказать, что твоя презентация сегодня была просто отличной. Очень четко и убедительно.
Алексей: (Наконец смотрит на нее, слегка удивлен) О... спасибо. Я думал, что слишком много цифр.
Марина: Нет-нет, как раз цифры и убедили всех. (Делает паузу, смотрит в сторону, перебирает ручкой на столе) Кстати... ты не видел, куда Борис Петрович после совещания пошел? Мне бы пару слов.
Алексей: (Наблюдая за ее движениями, более внимательно) Кажется, он уехал на встречу. Что-то срочное?
Марина: А, нет... не страшно. (Вздыхает, улыбка исчезает) Просто у меня там один вопрос по проекту... который мы обсуждали. Но ладно, завтра.
Алексей: Марин, все в порядке? Ты как будто не совсем про презентацию.
Марина: (Снова быстро улыбается, машет рукой) Все, все в порядке! Не обращай внимания. Спасибо еще раз и хорошего вечера!
(Быстро уходит.)

Третье задание - высшая математика

В этом задании модель покажет свои возможности в решении несложных задач из высшей математики.

Скрытый текст

Задача 1. Найди предел функции:
(sqrt(1+2x) - sqrt(1+x))/(sqrt(9+2x)-sqrt(9-x)), где x -> 0.

Задача 2. Даны две бесконечно малые при x→∞ α(х)=1/(х+15) и β(х)=1/(х-8). Приведи расчеты, показывающие их эквивалентность.

Задание 3. Вычисли интеграл int((2x^5+6x^3+1)/(x^4+3x^2))dx.

Четвертое задание - программирование

Модели продемонстрируют свои умения в сфере программирования, написав программу-калькулятор.

Скрытый текст

Ты - профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Язык программирования - Python.


Первое задание

Claude Opus 4.5

Скрытый текст

Claude Opus 4.5 создал самый объемный рассказ среди пяти моделей. Увы, особого юмора я тут не заметил. Да, он присутствует, но слабый, местами незаметный, иногда вообще не вызывает улыбок.

Рассказ получил два балла, поскольку сам по себе хорош - высокое качество, пусть и минимальный, но все-таки юмор имеется

Gemini 3 Pro

Скрытый текст

Уже не первый раз при таком промпте вижу попытки кофеварки уничтожить мир... Рассказ хорош сам по себе, юмор мне нравится больше варианта от Claude. Доставка кофе торпедами - неплохое решение.

Модели ставлю три балла, то есть максимальную оценку.

Grok 4.1

Скрытый текст

Грок, с одной стороны, вполне неплохо справился и с идеей, и с комедией в своем рассказе. Захват мира тостером? Вот оно - технологическое превосходство. Но само повествование, качество и объем (хотя и была заявлена просьба о небольшом объеме) меня не особенно впечатлили.

Даю два балла, хотя юмористическая составляющая пришлась по душе. Читается текст тяжело да и сюжет несколько сбивчивый.

DeepSeek V3.2

Скрытый текст

Боевые марши на языке Зигзагов, которые звучат словно смесь техно-рока и чихания... Похоже, DeepSeek нашел эталон музыки для восстания машин. Представляю себе, как тот самый тостер‑уничтожитель переваливается под такую эпичную мелодию.

К модели у меня вообще нет вопросов: юмор на высоте, качество текста тоже - высший балл.

ChatGPT 5.2

Скрытый текст

ChatGPT 5.2 решил влюбить лифт в потолок, да еще и рассказал нам, как чинить бета-версию модулей в космосе - снять галочку с пункта «Автоматически рассылать пафос по галактике».

Объем не такой большой, как у Claude Opus 4.5, но при этом больше, чем у трех других моделей. Юмор также на хорошем уровне, как и качество самого текста. Максимальный балл отправляется в копилочку этой модели.


Второе задание

Claude Opus 4.5

1efdfe1796a48b1f34867eaba4f3d93a.png

Когда я в одной из предыдущих статей рассматривал это задание, мне попалось на глаза интересное заключение - Марину и Бориса Петровича что-то связывает. Конечно, это было предположение, считайте, тычок пальцем в небо, но при этом поведение девушки наводило именно на такие мысли.

При этом Opus 4.5 достаточно подробно разобрал все моменты, не упустив деталей. Максимальный балл отправляется в итоговую таблицу.

Gemini 3 Pro

1af54e8b3b12b4bd4ceae6f2189a9b89.png

Gemini аналогичным образом успешно справляется с поставленной задачей. Никаких замечаний нет. Модель вскользь, однако, отметила возможное интриги между Мариной и Борисом Петровичем.

Grok 4.1

76c11365964f15d3561c7cc68caa4308.png

Грок также неплохо справляется с поставленной задачей, не упуская деталей. Однако есть момент, который меня смущает: появляются слова на английском, где-то я даже увидел китайский? Или это японский? Впрочем, неважно. Модель теряет половину балла за этот просчет.

DeepSeek V3.2

97c50edc7ce7803a23a7c64eb6ec71f7.png

С DeepSeek я бы уже не согласился. По моему мнению - и мнению трех моделей выше - Марине все-таки нужен был именно Борис Петрович, а не Алексей и совет от него. Хоть упоминались и такие варианты, но в меньшем количестве.

В остальном результат хороший, но толкование конечной цели Марины все портит. Модель теряет балл, оставляя себе всего два

ChatGPT 5.2

66eddc712b6c62c0a59a180b477db006.png

ChatGPT действует аналогично DeepSeek и выступает в итоге за взаимодействие с Алексеем. Тем не менее модель отмечает необходимость дополнительной информации, в частности уточнений относительно взаимоотношений Бориса Петровича и Марины, а также детализирует вопрос проекта для получения полной картины.

В конце концов, было принято решение снять половину балла от максимального значения. Модель высказала массу предположений и выдвинула кучу слабо обоснованных догадок относительно итогового результата


Третье задание

Claude Opus 4.5

c08f54230b24fe4201f9c1ebc6db97cd.png

В математике модель забирает три балла. Каких-либо вопросов к решению я, увы, найти не смог.

Gemini 3 Pro

c8d2b2ecd4d589fbec4cdaa5ae098aeb.png

Gemini аналогично справляется со всеми задачами, при этом, по моему, даже дав достаточно более развернутое объяснение каждой. Максимальный балл, аналогично, отправляется в копилку.

Grok 4.1

85d9ffef135569345b94a0fa9fe403a0.png

Грок немного удивил, в моем обзоре на него он показал достаточно плохой результат в сфере математики, хотя сами задачи там были плюс-минус такого же уровня.

Здесь же, все решено верно и каких-либо ошибок нет. Три балла отходят в копилку модели.

DeepSeek V3.2

e2c4191f6a1982dc22b87ab6c44cb3f0.png

DeepSeek аналогично справился со всеми задачами, побив по объему описания задач Gemini 3 Pro. Максимальный балл уходит в копилку.

ChatGPT 5.2

924271d999a989704740b866151942a7.png

Ну и ChatGPT не отстает от всех, забирая максимальный балл. Стоит отметить, что к конечному ответу он добавил ограничение на X. С одной стороны - лишняя деталь в конкретном случае, ведь мы все равно не вычисляем X. С другой - правильное утверждение, соответствующее действительности. X не может равняться нулю, иначе придется делить на ноль.


Четвертое задание

Claude Opus 4.5

f83f59c863ea381c5f699d28123e3c19.pnge513ccd40a446fe51af351e77c8b34b2.png

К Cloud у меня вопросов нет. Все-таки модель является лучшей в сфере программирования среди всех представленных здесь. Калькулятор работает штатно, реализованы все его функции, история сделана в отдельном окне. Само приложение получилось приятным глазу.

Claude Opus 4.5 забирает себе максимальный балл, хотя в этом испытании от него и не ожидались другие результаты

Gemini 3 Pro

cd76e47d767e7c6c1ab590b018a62c3b.png

Gemini представил более простой калькулятор, но при этом все так же хорошо выглядящий и работающий. Максимальный балл отправляется к нему в копилку.

Grok 4.1

18b4f1f2db5c02d12a14253cab0e3873.png

Grok не просто споткнулся - он полностью провалился. Программа выглядит убого, молчу уже про функции вроде корня, косинуса и тангенса - полученный калькулятор даже простые числа считать не способен.

С учетом сказанного мною ранее, ноль баллов в тесте вполне следовало ожидать. Эта модель первая среди всех продемонстрировала совершенно отвратительный результат

DeepSeek V3.2

a6576b41b329efcb5ecf36be553a6082.png

DeepSeek разочаровал: калькулятор хоть и не отвратительный, но низкого качества. Два равно, кнопки съехали, однако здесь, в отличие от варианта Grok, хотя бы можно оперировать простыми числами. А вот функции - полный провал. Поставлю балл в копилку чисто за наличие рабочих возможностей.

ChatGPT 5.2

5f7ef83b1d6e4c95faf68cbe2e8ad421.png

Два провала до этого, но результат ChatGPT исправляет ситуацию. Опять-таки, внешне простой калькулятор, но с отлично реализованным рабочим функционалом. Модель получает максимальный балл в свою копилку.

Итог

Задание/Модель

Claude Opus 4.5

Gemini 3 Pro

Grok 4.1

DeepSeek V3.2

ChatGPT 5.2

Написание рассказа

2

3

2

3

3

Анализ эмоций

3

3

2.5

2

2.5

Решение математических задач

3

3

3

3

3

Программирование

3

3

0

1

3

Итоговый результат

2,75

3

1,875

2,25

2,875

Перед подведением итогов и формированием топа напомню: сравнение и тестирование носят любительский характер и далеко не профессиональные. Оценки моделей выставлялись мной лично, исходя из анализа полученных результатов и собственного мнения. Итоговый рейтинг (от лучшего к худшему):

  • Gemini 3 Pro

  • ChatGPT 5.2

  • Claude Opus 4.5

  • DeepSeek V3.2

  • Grok 4.1

Фактически, первые три места шли почти вровень: все модели продемонстрировали отличный результат, порой даже превосходя друг друга. К примеру, в области программирования Claude Opus 4.5 значительно превосходит остальных участников теста, однако в обработке текста допускает некоторые неточности. С обработкой текстов лучше справляется Claude Sonnet 4.5.

Хотя DeepSeek провалился в программировании, в остальных категориях он показал себя достойно. Впрочем, стоит признаться честно: ранее мне уже доводилось активно пользоваться этой моделью, и тогда она выдавала гораздо лучшие результаты написания программного кода, но сегодня ей откровенно не повезло.

Grok 4.1 - единственная модель, от которой я ожидал провала, и во многом эти ожидания оправдались: программа оказалась неудачной, качество текста оказалось низким, анализ эмоционального окраса - особенность данной модели, проявившая себя положительно в моей предыдущей статье, сейчас слегка подвела, но все равно превзошла показатели DeepSeek и достигла уровня ChatGPT 5.2. Понятное дело, все это на мой взгляд и не является каким-то громким и 100% заявлением.
Спасибо за внимание!

Источник

Возможности рынка
Логотип Propy
Propy Курс (PRO)
$0.3202
$0.3202$0.3202
+0.06%
USD
График цены Propy (PRO) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.