Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Собака · Среда в 18:15

На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить.
Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.
Сравнивать модели я буду не по сухим техническим параметрам (хотя укажу их для порядка), а по запросам рядовых пользователей. А что нам всем важно? Правильно:

Скорость ответа;
Соответствие промту;
Понимание и учёт контекста;
Точность и правильность ответа;
Поддержка различных форматов файлов.

Ну и сразу обозначу, что статья эта будет представлять собой, по сути, большое тестирование указанных моделей, соответственно будет много скринов с их генерациями — будьте к этому готовы. Сами скрины будут скрыты в спойлеры, чтобы не загромождать текст: кому надо, тот всегда посмотрит.

На какие вопросы будем искать ответ и как?

Узнать хотим вот что:

Какая модель лучше справляется с рутинными задачами?
Есть ли универсальный лидер или выбор зависит от сценария?
Насколько значима разница в качестве ответов моделей?

Характеристики моделей

Чтобы сильно не распыляться, данные изложим в таблице:

Модель	Разработчик	Контекстное окно	Особенности, сильные стороны	Совместимость
*ChatGPT o1 Pro*	OpenAI	200К	Мультимодальность, решение сложных задач, многоуровневая логика, высокий уровень надёжности (практически исключены ошибочные ответы — галлюцинации).	Текстовые документы: PDF, DOCX, TXT. Изображения: JPG, PNG и др. Таблицы и файлы данных: CSV, XLSX (модель работает с данными в таблицах, но не поддерживает сложные сводные таблицы или макросы). Файлы с кодом или структурированными данными: .py, .js, .json, .xml и др. (ChatGPT открывает такой файл и анализирует его содержимое как текст).
*DeepSeek R1*	DeepSeek	128К	Логические рассуждения, решение сложных задач, высокая точность и скорость обработки текста, мультиязычность.	Текстовые файлы: TXT, CSV, JSON. Файлы документов: PDF, DOCX. Файлы изображений (текст на картинках не распознаёт, но может анализировать описание изображения, если оно предоставлено): PNG, JPEG. Файлы данных: XLSX. Сжатые файлы: ZIP (если внутри поддерживаемые форматы).
*Claude 3.7 Sonnet*	Anthropic	200К	Сильные способности к кодированию. Гибридное мышление (выбор между быстрым ответом и подробным пошаговым рассуждением). Работа с длинными текстами, этическая фильтрация.	Документы: PDF, DOCX, TXT, ODT, HTML, EPUB, JSON. Изображения: JPEG, PNG, GIF, WebP (модель может работать со скриншотами веб-страниц и анализировать визуальные элементы (изображения, диаграммы и графики) в PDF-файлах, которые содержат менее 100 страниц и загружены непосредственно в чат).
*Gemini 2.5 Pro*	Google	1 млн	Сильные способности к рассуждению и кодированию, глубокому анализу информации, логическим выводам. Учёт нюансов контекста, принятие обоснованных решений перед ответом.	Документы: DOC, DOCX, PDF, RTF, DOT, DOTX, HWP и HWPX. Файлы: TXT, PPTX, XLS, XLSX, CSV, TSV. Файлы с кодом: C, CPP, PY, JAVA, PHP, SQL и HTML. Этот тип файлов поддерживается только в Google AI Pro и Google AI Ultra.

Тестируем на общих задачах

Почему именно на них? Потому что у каждой модели, понятное дело, есть своя узкоспециальная направленность, в которой она заведомо будет сильнее других. Так, например, по отзывам многих специалистов, Claude 3.7 Sonnet на данный момент является лучшим в работе с кодом. Так что логичнее будет сравнить модели на наиболее общих задачах:

Классификация:
1. Распознавание образов (набор из 10 изображений — задача распределить их по 3 категориям);
2. Классификация данных (набор из 10 текстов — задача распределить их по стилям и тематике);
Генерация:
1. Написание сценария минутного ролика для продвижения;
2. Написание слоганов;
Работа с информацией:
1. Резюмирование текста;
2. Сравнительный анализ (с аргументацией и выводами);
3. Обработка данных (преобразование отчёта в материал для инфографики с выводами);
Обучение и саморазвитие: объяснение сложного материала простым языком;
Составление общего алгоритма/плана действий.

Ну и теперь, когда моя позиция прояснена, а задачи для моделей вам представлены, перейдём, собственно, к сражению ИИ-титанов.
Классификация
Распознавание образов
Промт, данный моделям:

Распредели изображения (файлы прикреплены) по категориям:

Строительные инструменты;

Кухонные приборы;

Музыкальные инструменты.

Соотнеси эти категории с порядковыми номерами изображений.

Для моделей, не поддерживающих распознавание изображений, мы подготовили их текстовые описания, не называя предметы напрямую.
Кстати, все нейросети, которые мы с вами сегодня изучим, можно запускать, тестировать и использовать для решения своих задач в

Для просмотра ссылки необходимо нажать Вход или Регистрация

уже через пять минут после регистрации. А перейдя по этой

Для просмотра ссылки необходимо нажать Вход или Регистрация

, вы сразу получите на свой аккаунт 100к токенов и сможете пользоваться не только указанными ИИ, но и многими другими.
ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro верно распознаёт изображения, однако почему-то сбивается в их порядке (номера в имени файлов также не соответствуют распределённым ИИ). Вероятно, если загружать изображения отдельными запросами, результат будет нужным, но и времени на это уйдёт больше.
Также, возможно, ошибка вышла из-за того, что файлы отобразились в промте не в том порядке, в котором были загружены.
DeepSeek R1
Скриншот

DeepSeek R1 верно определил изображения по их описаниям и распределил по группам, несмотря на то что модель уступает остальным в плане возможности распознавать картинки.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet справился с задачей идеально, результат полностью соответствует запросу. Дополнительную информацию, которая не требовалась, он не приводил.
Gemini 2.5 Pro
Скриншот

Результат, выданный Gemini 2.5 Pro, также полностью соответствует промту. Ошибок при выполнении допущено не было.
Классификация данных
Промт:

Определи стиль и тему каждого текста (файл прикреплён).
Распредели и сгруппируй все тексты по стилям (пиши их порядковые номера, они указаны перед каждым текстом).

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro справился даже лучше ожидаемого, разделив тексты на более узкие группы (мы не уточняли в промте, каким именно должно быть деление, поэтому это не ошибка). В стилях не ошибся, тексты распознал верно.
DeepSeek R1
Скриншот

DeepSeek R1 подробно расписал в том числе и маркеры стилей текстов и в целом распределил их верно. Однако, на мой взгляд, достаточно странно объединять публицистический и научно-популярный стиль в одну группу — это можно счесть за неточность.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet также сопроводил разделение текстов и их группировку обоснованием и кратким анализом, в самом ответе ошибок он не допустил.
Gemini 2.5 Pro
Скриншот

Gemini 2.5 Pro в целом справилась с задачей, однако следует заметить, что не все специалисты относят рекламные тексты к публицистическому стилю (вопрос дискуссионный). Опять-таки этот спорный момент в запросе уточнён не был, так что претензий нет.
Генерация
Написание сценария минутного ролика для продвижения
Промт:

Напиши сценарий минутного ролика для продвижения зоомагазина.
Учитывай следующие данные:

Целевая аудитория — владельцы животных.

Зоомагазин специализируется на аквариумных рыбках и товарах для аквариумов, но имеет и базовые для зоомагазинов товары по типу кормов, игрушек и т. п. для домашних животных.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro написал довольно-таки базовый, но хороший сценарий, отвечающий всем требованиям промта. Описание самих кадров можно было прописать подробнее (здесь пригодился бы уточняющий промт).
DeepSeek R1
Скриншот

DeepSeek R1 также написал качественный сценарий, однако здесь есть уже пара нареканий: во-первых, почему-то указано название магазина, о котором ничего не сказано в промте, а во-вторых, отсутствует чётко прописанное соответствие сцен их времени (как это сделал ChatGPT o1 Pro).
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet также добавил название магазина, хоть оно и не было указано в промте, и не расписал тайминг. Но хочется отметить подробное изложение как текста, так и монтажа.
Gemini 2.5 Pro
Скриншот

Что важный плюс, Gemini 2.5 Pro сразу же прописал цель и настроение, выделил ключевые моменты, на которые нужно обратить внимание, и даже предложил название для ролика. Также он представил ответ в виде таблицы с таймингами, видеорядом и звуком, что, на мой взгляд, является наиболее удобным из всех ответов моделей.
Написание слоганов
Промт:

Придумай 5 вариантов цепляющих слоганов для сервиса доставки здорового питания. Учти следующие моменты:

Упор на экономию времени.

Целевая аудитория — удалёнщики, люди, ведущие активный образ жизни.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro действительно сделал упор на экономию времени, однако целевая аудитория в вариантах ИИ почти не учитывается, что является недостатком.
DeepSeek R1
Скриншот

DeepSeek R1 учёл уже оба требования в промте и даже написал краткие пояснения и
предложил креативные ходы — в том числе для оформления слоганов.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet предложил неплохие слоганы, отвечающие требованиям промта, однако формулировка последнего несколько странная («Заряжайся энергией, а не плитой»). Да что там странная, она просто некорректная.
Gemini 2.5 Pro
Скриншот

У Gemini 2.5 Pro вышел самый детальный ответ среди всех моделей, но требования промта по ЦА соблюдены только в первом варианте, остальные же просто универсальны. Это подошло бы, если бы мы не задали чётких требований, на что нужно сделать упор.
Работа с информацией
Резюмирование текста
Промт:

Сократи текст юридического договора (файл прикреплён) до 10-15 ключевых пунктов. Напиши их простым языком, понятным неподготовленному читателю.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro точно и без отступлений от исходного документа отразил ключевые пункты, представив их в удобном и понятном виде.
DeepSeek R1
Скриншот

DeepSeek R1 также предоставил качественный ответ, полностью соответствующий промту, без ошибок и неточностей.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet тезисно отразил ключевые положения договора, но вдобавок следовало бы прописать права адвоката и доверителя (заказчика).
Gemini 2.5 Pro
Скриншот

В отличие от оппонентов, Gemini 2.5 Pro дал более живой и разговорный ответ, не разбивая его на подпункты. Возможно, кому-то такое изложение будет более понятно. Вся необходимая информация также была изложена.
Сравнительный анализ (с аргументацией и выводами)
Промт:

Сравни фитнес-трекеры Fitbit и Xiaomi Mi Band (подбери лучшие модели) по параметрам:

Точность измерения пульса/шагов (сравнение с эталонными датчиками).

Удобство интерфейса, его интуитивная понятность пользователю.

Прогнозирование здоровья (оценка алгоритмов).

Качество.

Цена.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro предоставил подробную сводку по всем параметрам, указанным в промте, раскрывая как сильные, так и слабые стороны моделей. И в целом с отзывами по этим товарам его ответ сходится, то есть фактическая неточность тут минимальна (и то потому, что отзывы — это мнение людей, которое может разниться). Сопоставление, которое сделал ИИ, легко воспринимается, когда его читаешь.
DeepSeek R1
Скриншот

DeepSeek R1 тоже сгенерировал простое и удобное для восприятия сопоставление, сопроводив краткими выводами по каждому разделу. Справился с задачей ничуть не хуже, чем ChatGPT o1 Pro, только несколько по-другому структурировал информацию. Тут судить, что вышло лучше, затруднительно, поскольку оценку можно дать только субъективную.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet в целом наиболее удачно структурирует информацию. В данной задаче он предоставил краткие пункты с основной информацией по всем разделам, указанным в промте. Воспринимается такой формат, на мой взгляд, легче всего.
Gemini 2.5 Pro
Скриншот

Gemini 2.5 Pro сопроводил ответ сравнительной таблицей, что всегда в плюс удобству, однако несколько перегрузил свой ответ информацией, из-за чего он воспринимается перегруженным. В остальном генерация соответствует промту.
Обработка данных (преобразование статьи в сводку для инфографики с выводами)
Промт:

Вычлени из этой статьи со статистическими данными (файл прикреплён) ключевую информацию для создания наглядной инфографики (процентное соотношение ответов респондентов) и напиши выводы к ней в соответствии с текстом статьи (или же возьми их из её текста).

ChatGPT o1 Pro
Скриншот

Сразу стоит отметить, что статья написана довольно запутанно, не соблюдается даже чёткое абзацное членение по вопросам, на которые отвечали распонденты. ChatGPT o1 Pro удачно разделил ответы по группам, не совершив ошибок в данных, и привёл выводы, соответствующие тексту статьи.
DeepSeek R1
Скриншот

DeepSeek R1 тоже удачно сгруппировал данные, не сделав в них ошибок, — даже более удобно для понимания, чем это сделал ChatGPT o1 Pro.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet хорошо структурировал данные по группам, но добавил лишнее значение (СМС/пуш-уведомления ~20%), хотя и с пометкой, что данные не названы. Однако в статье проценты приведены выборочно (тут вопросы к самой статье), так что приводить цифру не очень корректно. Также Claude 3.7 Sonnet привёл больше всех выводов по статье.
Gemini 2.5 Pro
Скриншот

Gemini 2.5 Pro представил ответ в самом кратком виде, группы он распределил по вопросам, но менее удобно и понятно, чем, например, ChatGPT o1 Pro и Claude 3.7 Sonnet.
Обучение и саморазвитие
Объяснение сложного материала простым языком
Промт:

Изложи материал (файл прикреплён) в 10-17 предложениях так, чтобы понял 10-летний ребёнок: приводи бытовые аналогии и т. п.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro привёл понятные аналогии, но наличие общего повествования прибавило бы ясности — с ребенком легче поделиться текстом, представленным единым рассказом.
DeepSeek R1
Скриншот

DeepSeek R1 построил целый тезисный рассказ из понятных ребёнку аналогий. Нейросеть даже упомянула открывшего рентген учёного. Основная задача выполнена: принцип действия объяснён максимально просто, а также приведены способы применения рентгена, что наверняка заинтересует ребёнка.
Claude 3.7 Sonnet
Скриншот

Claude 3.7 Sonnet, как и Gemini 2.5 Pro далее, предоставил уже действительно полноценный рассказ. Он дал несколько меньше информации, чем ChatGPT o1 Pro и DeepSeek R1, однако изложил её языком, наиболее подходящим для интересного объяснения ребёнку.
Gemini 2.5 Pro
Скриншот

Gemini 2.5 Pro, пожалуй, адаптировал материал под ребёнка лучше всех остальных моделей (немного пожертвовав фактической точностью).
Составление общего алгоритма/плана действий
Промт:

Создай общий алгоритм действий для подготовки и путешествия в другую страну. Учти все важные действия (например, оформление документов, упаковка вещей, организация транспорта и гостиницы и т. п.). Страна отправления — Россия.

ChatGPT o1 Pro
Скриншот

ChatGPT o1 Pro составил максимально детализированный план, учтя все важные моменты для поездки. Материал структурирован удобными разделами и подпунктами, в предполагаемой хронологии.
DeepSeek R1
Скриншот

DeepSeek R1 тоже представил план, соответствующий промту, но сделал его чуть более детализированным. А также прописал возвращение из поездки, чего ChatGPT o1 Pro, кстати, не сделал. Кроме того, R1 сопроводил текст дополнительными советами, что тоже ему в плюс.
Claude 3.7 Sonnet
Скриншот

Преимущества генерации Claude 3.7 Sonnet — подробный план в части с документами и, кроме того, важный пункт о финальной проверке. Он отличается чёткостью и информативностью, которые очень гармонично сочетаются в алгоритме.
Gemini 2.5 Pro
Скриншот

В ответе Gemini 2.5 Pro я отмечу важные временные разграничения, с помощью которых легче распланировать последовательность своих действий и в общем следовать алгоритму.

Выводы

Итак, сначала вернёмся к заданным в самом начале вопросам.
Какая модель лучше справляется с рутинными задачами?
В целом наилучшие результаты в рутинных задачах (классификация данных, резюмирование, обработка информации) демонстрирует DeepSeek R1.
Почему:

Высокая скорость обработки;
Оптимальный уровень детализации;
Минимальные ошибки.

ChatGPT o1 Pro тоже эффективен в рутине, но иногда уступает в адаптивности (например, пропуск этапа возвращения в алгоритме путешествия), а также дольше генерирует ответы, ну и, конечно, это более затратная модель.
Есть ли универсальный лидер или выбор зависит от сценария?
Выбор модели действительно зависит от задачи:

Claude 3.7 Sonnet — работа с кодом и длинными текстами; задачи, требующие этической фильтрации;
Gemini 2.5 Pro — аналитика, логические выводы и в целом объёмные задачи (за счёт большого контекстного окна);
DeepSeek R1 — рутинные операции, задачи с жёсткими требованиями к структуре;
ChatGPT o1 Pro — креативные и мультимодальные, объёмные задачи.

Насколько значима разница в качестве ответов моделей?
Разница существенна в узких сценариях, но минимальна в общих задачах.
Так, например, в классификации изображений Claude и Gemini дали идеальные результаты, тогда как ChatGPT ошибся в порядке. В генерации слоганов DeepSeek и Gemini показали лучший уровень креативности, а Gemini частично проигнорировал целевую аудиторию. В объяснении материала для детей Gemini адаптировал контент лучше всех, но частично потерял фактическую точность, а DeepSeek удалось сохранить баланс.
Ну и приведём сравнительную таблицу.

Критерии	ChatGPT o1 Pro	DeepSeek R1	Claude 3.7 Sonnet	Gemini 2.5 Pro
Скорость ответа	Ниже, чем у остальных (в данных запросах)	Очень высокая	Средняя	Средняя
Соответствие промту	9/10	9/10	8/10	7/10 (бывают отклонения)
Понимание контекста	Отличное	Отличное	Лучшее (гибкое мышление)	Глубокое, но избыточное
Точность ответов	9/10	10/10	8/10	7/10 (иногда жертвует точностью в угоду стилю ответа)
Поддержка форматов	Широкая	Умеренная: на изображениях распознаёт только текст (но не объекты)	Широкая	Самая широкая
Структура	Чёткая, логичная; при этом периодически текст труден для восприятия	Чёткая, логичная, в меру детализированная	Чёткая, логичная, при этом лаконичная	Зачастую перегруженный текст, бывают логические нарушения
Креативность	Средняя	Высокая	Низкая	Высокая
Адаптивность	Средняя	Высокая	Средняя	Низкая
Уровень детализации	Оптимальный	Оптимальный	Минимальный	Избыточный
Естественность языка	Высокая	Высокая	Средняя	Высокая

Ну и что в итоге?

Если уж выбирать одну модель на все случаи жизни, то наиболее универсальными вариантами являются DeepSeek R1 и Gemini 2.5 Pro.
Если же рассматривать специализацию или уклон задач, то модели распределятся приблизительно следующим образом:

Маркетинг (слоганы, сценарии) — DeepSeek R1
Аналитика (работа с big data) — Gemini 2.5 Pro
Разработка (код, безопасность) — Claude 3.7 Sonnet
Контент (баланс креатива и точности) — ChatGPT o1 Pro

В общем, гиганты искусственной мысли, на работу которых мы смотрели сегодня, показали достойные друг друга результаты, однако будем помнить, что если у вашей задачи есть какая-то определённая спецификация, то для неё могут быть оптимальны разные нейросети.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Собака

Пресс-служба

На какие вопросы будем искать ответ и как?

Характеристики моделей

Тестируем на общих задачах

Выводы

Ну и что в итоге?

Похожие темы

Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Собака

Пресс-служба

На какие вопросы будем искать ответ и как?​

Характеристики моделей​

Тестируем на общих задачах​

Выводы​

Ну и что в итоге?​

Похожие темы

На какие вопросы будем искать ответ и как?

Характеристики моделей

Тестируем на общих задачах

Выводы

Ну и что в итоге?