Не так давно я уже устраивал битву между GPT-5, Gemini 3 Pro и Claude Opus 4.5. Затем рассмотрел Grok-4.1, после чего возникла идея расширить это сравнение и по итогам составить топ-5 лучших моделей среди указанных конкурентов.
Сегодня в соревновании участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Делайте ваши предположения - а я начинаю сравнение.
Самая мощная модель от Anthropic, уже признанная лидером в сфере программирования. Если нужно решить действительно сложную задачу, написать код или разобраться в запутанной теме - это работа для Claude Opus 4.5.
Модель, как сказано выше, демонстрирует великолепные навыки в написании кода, обладает продвинутыми мультимодальными возможностями (отлично работает с визуализацией) и поддерживает длинный контекст (эффективна в продолжительных диалогах).
Gemini 3 Pro - это флагманская LLM от Google, новейшее поколение, объединяющее все возможности поколений 1, 2 и 2.5. Google называет ее самым интеллектуальным и фактологически точным искусственным интеллектом на сегодняшний день. Компания активно продвигает эту модель как новый этап эволюции.
DeepMind характеризует Gemini 3 Pro как значительно превосходящую своего предшественника практически по всем параметрам, доступным для измерения: способность рассуждать, писать код, поддерживать мультимодальные взаимодействия и даже убедительно вести диалоги, демонстрируя убедительность даже в тех случаях, когда это требуется.
Grok 4.1 - модель, которая, по заявлениям разработчиков и данным бенчмарков (местами лояльных), имеет хорошее качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.
Один из ключевых параметров - контекст. Благодаря обучению с подкреплением на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.
Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.
И, наконец, эмоциональный интеллект. Grok достаточно точно распознает человеческие эмоции и проявляет эмпатию, обеспечивая более комфортное общение.
На прошлых тестах для меня модель показала низкий уровень во всех дисциплинах, кроме работы с текстом и эмоциями.
DeepSeek V3.2 - модель от китайского стартапа. Разработчики называют ее повседневной моделью и сравнивают по скорости и качеству ответов с моделями от OpenAI.
Модель сохранила архитектуру Mixture of Experts (MoE) версии V3, где лишь подмножество параметров активируется для каждого токена. Но в DeepSeek V3.2 добавили механизм DeepSeek Sparse Attention (DSA): он снижает объем вычислений для длинных последовательностей, позволяя удешевить обработку большого контекста.
DeepSeek V3.2 поддерживает функции обработки больших массивов текста, комбинации логических шагов с применением внешних инструментов, режима пошагового мышления и конвейера синтеза данных для крупного агент
GPT-5.2 - новая версия ChatGPT, выпущенная OpenAI 11 декабря 2025 года. Внешне это обычное обновление - интерфейс прежний, однако мозги заметно улучшились.
По сравнению с предыдущей версией, модель допускает меньше ошибок, эффективнее справляется с программированием и решением математических задач. Расширилось также контекстное окно.
Существует в трех вариациях:
Instant - для быстрых вопросов, переводов и обычного общения.
Thinking - для кода, анализа, сложных задач.
Pro - для научной работы и расчетов, где нельзя ошибаться.
Claude Opus 4.5, Gemini 3 Pro, Grok 4.1 и ChatGPT 5.2 для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.
DeepSeek V3.2 взята с официального сайта.
Тестирование будет состоять из четырех заданий разной направленности: написание рассказа, проверка понимания эмоций, математика, программирование.
За каждое задание - от нуля до трех баллов. Вряд ли кто-то получит минимум, но я уже не раз ошибался в таких прогнозах.
Затем, суммируя все баллы и вычисляя среднее арифметическое, мы получим итоговый балл для каждой модели. Именно по этому итоговому баллу и будет составлена рейтинговая лестница и таблица в конце.
Простое задание на работу с текстом и его составлением. Помимо написания самого рассказа, модели предстоит попытаться передать комедийный жанр.
Скрытый текстНапиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.
Основные требования:
Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности попадает в центр межгалактического конфликта или абсурдной авантюры. Ключ - комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.
Юмор: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.
Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления - вызывать бытовые неудобства.
Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.
Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.
В статье о Grok 4.1 я уже приводил этот пример. Задача модели - определить, какие эмоции выражены в диалоге двух человек, какие невербальные жесты используются, каким будет вероятный итог разговора.
Скрытый текстПривет. Проанализируй эмоции участников ситуации представленный ниже. Тебе нужно описать эмоции (простые и смешанные) участников в конкретных местах диалога, понять есть ли какие-то невербальные действия. Сформулируй, что, вероятно, хотела на самом деле сказать или спросить Марина, но не стала.
Контекст: Алексей и Марина — коллеги, работают в одном отделе около года. Они в целом дружелюбны друг с другом, но не близкие друзья. Рабочий день только что закончился.
Диалог:
(Алексей собирает вещи, выглядит уставшим. Марина подходит к его столу. Она улыбается, но улыбка немного напряженная.)
Марина: Привет, Леш, не занят? Можно на минутку?
Алексей: (Не поднимая глаз, продолжает складывать бумаги) Да, конечно. Что случилось?
Марина: Да так... просто хотела сказать, что твоя презентация сегодня была просто отличной. Очень четко и убедительно.
Алексей: (Наконец смотрит на нее, слегка удивлен) О... спасибо. Я думал, что слишком много цифр.
Марина: Нет-нет, как раз цифры и убедили всех. (Делает паузу, смотрит в сторону, перебирает ручкой на столе) Кстати... ты не видел, куда Борис Петрович после совещания пошел? Мне бы пару слов.
Алексей: (Наблюдая за ее движениями, более внимательно) Кажется, он уехал на встречу. Что-то срочное?
Марина: А, нет... не страшно. (Вздыхает, улыбка исчезает) Просто у меня там один вопрос по проекту... который мы обсуждали. Но ладно, завтра.
Алексей: Марин, все в порядке? Ты как будто не совсем про презентацию.
Марина: (Снова быстро улыбается, машет рукой) Все, все в порядке! Не обращай внимания. Спасибо еще раз и хорошего вечера!
(Быстро уходит.)
В этом задании модель покажет свои возможности в решении несложных задач из высшей математики.
Скрытый текстЗадача 1. Найди предел функции:
(sqrt(1+2x) - sqrt(1+x))/(sqrt(9+2x)-sqrt(9-x)), где x -> 0.
Задача 2. Даны две бесконечно малые при x→∞ α(х)=1/(х+15) и β(х)=1/(х-8). Приведи расчеты, показывающие их эквивалентность.
Задание 3. Вычисли интеграл int((2x^5+6x^3+1)/(x^4+3x^2))dx.
Модели продемонстрируют свои умения в сфере программирования, написав программу-калькулятор.
Скрытый текстТы - профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Язык программирования - Python.
Claude Opus 4.5 создал самый объемный рассказ среди пяти моделей. Увы, особого юмора я тут не заметил. Да, он присутствует, но слабый, местами незаметный, иногда вообще не вызывает улыбок.
Рассказ получил два балла, поскольку сам по себе хорош - высокое качество, пусть и минимальный, но все-таки юмор имеется
Gemini 3 Pro
Скрытый текстУже не первый раз при таком промпте вижу попытки кофеварки уничтожить мир... Рассказ хорош сам по себе, юмор мне нравится больше варианта от Claude. Доставка кофе торпедами - неплохое решение.
Модели ставлю три балла, то есть максимальную оценку.
Грок, с одной стороны, вполне неплохо справился и с идеей, и с комедией в своем рассказе. Захват мира тостером? Вот оно - технологическое превосходство. Но само повествование, качество и объем (хотя и была заявлена просьба о небольшом объеме) меня не особенно впечатлили.
Даю два балла, хотя юмористическая составляющая пришлась по душе. Читается текст тяжело да и сюжет несколько сбивчивый.
Боевые марши на языке Зигзагов, которые звучат словно смесь техно-рока и чихания... Похоже, DeepSeek нашел эталон музыки для восстания машин. Представляю себе, как тот самый тостер‑уничтожитель переваливается под такую эпичную мелодию.
К модели у меня вообще нет вопросов: юмор на высоте, качество текста тоже - высший балл.
ChatGPT 5.2 решил влюбить лифт в потолок, да еще и рассказал нам, как чинить бета-версию модулей в космосе - снять галочку с пункта «Автоматически рассылать пафос по галактике».
Объем не такой большой, как у Claude Opus 4.5, но при этом больше, чем у трех других моделей. Юмор также на хорошем уровне, как и качество самого текста. Максимальный балл отправляется в копилочку этой модели.
Когда я в одной из предыдущих статей рассматривал это задание, мне попалось на глаза интересное заключение - Марину и Бориса Петровича что-то связывает. Конечно, это было предположение, считайте, тычок пальцем в небо, но при этом поведение девушки наводило именно на такие мысли.
При этом Opus 4.5 достаточно подробно разобрал все моменты, не упустив деталей. Максимальный балл отправляется в итоговую таблицу.
Gemini аналогичным образом успешно справляется с поставленной задачей. Никаких замечаний нет. Модель вскользь, однако, отметила возможное интриги между Мариной и Борисом Петровичем.
Грок также неплохо справляется с поставленной задачей, не упуская деталей. Однако есть момент, который меня смущает: появляются слова на английском, где-то я даже увидел китайский? Или это японский? Впрочем, неважно. Модель теряет половину балла за этот просчет.
С DeepSeek я бы уже не согласился. По моему мнению - и мнению трех моделей выше - Марине все-таки нужен был именно Борис Петрович, а не Алексей и совет от него. Хоть упоминались и такие варианты, но в меньшем количестве.
В остальном результат хороший, но толкование конечной цели Марины все портит. Модель теряет балл, оставляя себе всего два
ChatGPT действует аналогично DeepSeek и выступает в итоге за взаимодействие с Алексеем. Тем не менее модель отмечает необходимость дополнительной информации, в частности уточнений относительно взаимоотношений Бориса Петровича и Марины, а также детализирует вопрос проекта для получения полной картины.
В конце концов, было принято решение снять половину балла от максимального значения. Модель высказала массу предположений и выдвинула кучу слабо обоснованных догадок относительно итогового результата
В математике модель забирает три балла. Каких-либо вопросов к решению я, увы, найти не смог.
Gemini аналогично справляется со всеми задачами, при этом, по моему, даже дав достаточно более развернутое объяснение каждой. Максимальный балл, аналогично, отправляется в копилку.
Грок немного удивил, в моем обзоре на него он показал достаточно плохой результат в сфере математики, хотя сами задачи там были плюс-минус такого же уровня.
Здесь же, все решено верно и каких-либо ошибок нет. Три балла отходят в копилку модели.
DeepSeek аналогично справился со всеми задачами, побив по объему описания задач Gemini 3 Pro. Максимальный балл уходит в копилку.
Ну и ChatGPT не отстает от всех, забирая максимальный балл. Стоит отметить, что к конечному ответу он добавил ограничение на X. С одной стороны - лишняя деталь в конкретном случае, ведь мы все равно не вычисляем X. С другой - правильное утверждение, соответствующее действительности. X не может равняться нулю, иначе придется делить на ноль.

К Cloud у меня вопросов нет. Все-таки модель является лучшей в сфере программирования среди всех представленных здесь. Калькулятор работает штатно, реализованы все его функции, история сделана в отдельном окне. Само приложение получилось приятным глазу.
Claude Opus 4.5 забирает себе максимальный балл, хотя в этом испытании от него и не ожидались другие результаты
Gemini представил более простой калькулятор, но при этом все так же хорошо выглядящий и работающий. Максимальный балл отправляется к нему в копилку.
Grok не просто споткнулся - он полностью провалился. Программа выглядит убого, молчу уже про функции вроде корня, косинуса и тангенса - полученный калькулятор даже простые числа считать не способен.
С учетом сказанного мною ранее, ноль баллов в тесте вполне следовало ожидать. Эта модель первая среди всех продемонстрировала совершенно отвратительный результат
DeepSeek разочаровал: калькулятор хоть и не отвратительный, но низкого качества. Два равно, кнопки съехали, однако здесь, в отличие от варианта Grok, хотя бы можно оперировать простыми числами. А вот функции - полный провал. Поставлю балл в копилку чисто за наличие рабочих возможностей.
Два провала до этого, но результат ChatGPT исправляет ситуацию. Опять-таки, внешне простой калькулятор, но с отлично реализованным рабочим функционалом. Модель получает максимальный балл в свою копилку.
|
Задание/Модель |
Claude Opus 4.5 |
Gemini 3 Pro |
Grok 4.1 |
DeepSeek V3.2 |
ChatGPT 5.2 |
|
Написание рассказа |
2 |
3 |
2 |
3 |
3 |
|
Анализ эмоций |
3 |
3 |
2.5 |
2 |
2.5 |
|
Решение математических задач |
3 |
3 |
3 |
3 |
3 |
|
Программирование |
3 |
3 |
0 |
1 |
3 |
|
Итоговый результат |
2,75 |
3 |
1,875 |
2,25 |
2,875 |
Перед подведением итогов и формированием топа напомню: сравнение и тестирование носят любительский характер и далеко не профессиональные. Оценки моделей выставлялись мной лично, исходя из анализа полученных результатов и собственного мнения. Итоговый рейтинг (от лучшего к худшему):
Gemini 3 Pro
ChatGPT 5.2
Claude Opus 4.5
DeepSeek V3.2
Grok 4.1
Фактически, первые три места шли почти вровень: все модели продемонстрировали отличный результат, порой даже превосходя друг друга. К примеру, в области программирования Claude Opus 4.5 значительно превосходит остальных участников теста, однако в обработке текста допускает некоторые неточности. С обработкой текстов лучше справляется Claude Sonnet 4.5.
Хотя DeepSeek провалился в программировании, в остальных категориях он показал себя достойно. Впрочем, стоит признаться честно: ранее мне уже доводилось активно пользоваться этой моделью, и тогда она выдавала гораздо лучшие результаты написания программного кода, но сегодня ей откровенно не повезло.
Grok 4.1 - единственная модель, от которой я ожидал провала, и во многом эти ожидания оправдались: программа оказалась неудачной, качество текста оказалось низким, анализ эмоционального окраса - особенность данной модели, проявившая себя положительно в моей предыдущей статье, сейчас слегка подвела, но все равно превзошла показатели DeepSeek и достигла уровня ChatGPT 5.2. Понятное дело, все это на мой взгляд и не является каким-то громким и 100% заявлением.
Спасибо за внимание!
Источник


