Битва сильнейших: ChatGPT o1 pro / DeepSeek r1 / Claude 3.7 Sonnet / Gemini 2.5 Pro

Специальный корреспондент
Собака

Собака

Пресс-служба
Ветеран пробива
Private Club
Регистрация
13/10/15
Сообщения
58.396
Репутация
64.270
Реакции
286.267
USD
0
На дворе 2025-й — год, когда нейросети уже давно превратились из «чего-то неизведанного, но интересного и манящего» в незримых союзников огромного количества людей, которые с радостью поручают им различные задачи в течение дня. И сегодня мы с вами посмотрим на битву ИИ-титанов: ChatGPT o1 Pro, DeepSeek R1, Claude 3.7 Sonnet и Gemini 2.5 Pro. Ну, может, конечно, будет и не столь зрелищно, как в каких-нибудь боевиках, однако, какая из этих моделей справляется с общими задачами лучше всего, мы с вами постараемся выяснить.
Что действительно волнует пользователей — как выбрать идеального ИИ-помощника под свою конкретную задачу? Все чаще они ищут не просто умную нейросеть, а специализированные решения для маркетинга, копирайтинга слоганов, сценариев и других видов контента. В этом обзоре мы с вами не только сравним общие способности лидеров рынка, но и присмотримся к тому, какая модель станет вашим лучшим оружием в конкретных областях.
Сравнивать модели я буду не по сухим техническим параметрам (хотя укажу их для порядка), а по запросам рядовых пользователей. А что нам всем важно? Правильно:
  • Скорость ответа;
  • Соответствие промту;
  • Понимание и учёт контекста;
  • Точность и правильность ответа;
  • Поддержка различных форматов файлов.
Ну и сразу обозначу, что статья эта будет представлять собой, по сути, большое тестирование указанных моделей, соответственно будет много скринов с их генерациями — будьте к этому готовы. Сами скрины будут скрыты в спойлеры, чтобы не загромождать текст: кому надо, тот всегда посмотрит.

На какие вопросы будем искать ответ и как?​

Узнать хотим вот что:
  • Какая модель лучше справляется с рутинными задачами?
  • Есть ли универсальный лидер или выбор зависит от сценария?
  • Насколько значима разница в качестве ответов моделей?

Характеристики моделей​

Чтобы сильно не распыляться, данные изложим в таблице:
Модель
Разработчик
Контекстное окно
Особенности, сильные стороны
Совместимость
ChatGPT o1 Pro
OpenAI​
200К​
Мультимодальность, решение сложных задач, многоуровневая логика, высокий уровень надёжности (практически исключены ошибочные ответы — галлюцинации).​
Текстовые документы: PDF, DOCX, TXT.
Изображения: JPG, PNG и др.
Таблицы и файлы данных: CSV, XLSX (модель работает с данными в таблицах, но не поддерживает сложные сводные таблицы или макросы).
Файлы с кодом или структурированными данными: .py, .js, .json, .xml и др. (ChatGPT открывает такой файл и анализирует его содержимое как текст).​
DeepSeek R1
DeepSeek​
128К​
Логические рассуждения, решение сложных задач, высокая точность и скорость обработки текста, мультиязычность.​
Текстовые файлы: TXT, CSV, JSON.
Файлы документов: PDF, DOCX.
Файлы изображений (текст на картинках не распознаёт, но может анализировать описание изображения, если оно предоставлено): PNG, JPEG.
Файлы данных: XLSX.
Сжатые файлы: ZIP (если внутри поддерживаемые форматы).​
Claude 3.7 Sonnet
Anthropic​
200К​
Сильные способности к кодированию. Гибридное мышление (выбор между быстрым ответом и подробным пошаговым рассуждением). Работа с длинными текстами, этическая фильтрация.​
Документы: PDF, DOCX, TXT, ODT, HTML, EPUB, JSON.
Изображения: JPEG, PNG, GIF, WebP (модель может работать со скриншотами веб-страниц и анализировать визуальные элементы (изображения, диаграммы и графики) в PDF-файлах, которые содержат менее 100 страниц и загружены непосредственно в чат).​
Gemini 2.5 Pro
Google​
1 млн​
Сильные способности к рассуждению и кодированию,
глубокому анализу информации, логическим выводам. Учёт нюансов контекста, принятие обоснованных решений перед ответом.​
Документы: DOC, DOCX, PDF, RTF, DOT, DOTX, HWP и HWPX.
Файлы: TXT, PPTX, XLS, XLSX*, CSV, TSV*.
Файлы с кодом: C, CPP, PY, JAVA, PHP, SQL и HTML*.
* Этот тип файлов поддерживается только в Google AI Pro и Google AI Ultra.

Тестируем на общих задачах​

Почему именно на них? Потому что у каждой модели, понятное дело, есть своя узкоспециальная направленность, в которой она заведомо будет сильнее других. Так, например, по отзывам многих специалистов, Claude 3.7 Sonnet на данный момент является лучшим в работе с кодом. Так что логичнее будет сравнить модели на наиболее общих задачах:
  1. Классификация:
    1. Распознавание образов (набор из 10 изображений — задача распределить их по 3 категориям);
    2. Классификация данных (набор из 10 текстов — задача распределить их по стилям и тематике);
  2. Генерация:
    1. Написание сценария минутного ролика для продвижения;
    2. Написание слоганов;
  3. Работа с информацией:
    1. Резюмирование текста;
    2. Сравнительный анализ (с аргументацией и выводами);
    3. Обработка данных (преобразование отчёта в материал для инфографики с выводами);
  4. Обучение и саморазвитие: объяснение сложного материала простым языком;
  5. Составление общего алгоритма/плана действий.
Ну и теперь, когда моя позиция прояснена, а задачи для моделей вам представлены, перейдём, собственно, к сражению ИИ-титанов.
Классификация
Распознавание образов

Промт, данный моделям:
Распредели изображения (файлы прикреплены) по категориям:
  1. Строительные инструменты;
  2. Кухонные приборы;
  3. Музыкальные инструменты.
Соотнеси эти категории с порядковыми номерами изображений.
Для моделей, не поддерживающих распознавание изображений, мы подготовили их текстовые описания, не называя предметы напрямую.
Кстати, все нейросети, которые мы с вами сегодня изучим, можно запускать, тестировать и использовать для решения своих задач в уже через пять минут после регистрации. А перейдя по этой , вы сразу получите на свой аккаунт 100к токенов и сможете пользоваться не только указанными ИИ, но и многими другими.
ChatGPT o1 Pro
Скриншот
65cc60b033fded668a09bb5e881b48f3.png

ChatGPT o1 Pro верно распознаёт изображения, однако почему-то сбивается в их порядке (номера в имени файлов также не соответствуют распределённым ИИ). Вероятно, если загружать изображения отдельными запросами, результат будет нужным, но и времени на это уйдёт больше.
Также, возможно, ошибка вышла из-за того, что файлы отобразились в промте не в том порядке, в котором были загружены.
DeepSeek R1
Скриншот
194f3e750f3cb068c9832bb664ccd459.png

DeepSeek R1 верно определил изображения по их описаниям и распределил по группам, несмотря на то что модель уступает остальным в плане возможности распознавать картинки.
Claude 3.7 Sonnet
Скриншот
58283b75edb67a7dbb2c2695559c018f.png

Claude 3.7 Sonnet справился с задачей идеально, результат полностью соответствует запросу. Дополнительную информацию, которая не требовалась, он не приводил.
Gemini 2.5 Pro
Скриншот
ab61d955dab9004683b3e48107fd8f71.png

Результат, выданный Gemini 2.5 Pro, также полностью соответствует промту. Ошибок при выполнении допущено не было.
Классификация данных
Промт:
Определи стиль и тему каждого текста (файл прикреплён).
Распредели и сгруппируй все тексты по стилям (пиши их порядковые номера, они указаны перед каждым текстом).
ChatGPT o1 Pro
Скриншот
f12769873bbb4dbc0e30b0d10735fbbe.png

ChatGPT o1 Pro справился даже лучше ожидаемого, разделив тексты на более узкие группы (мы не уточняли в промте, каким именно должно быть деление, поэтому это не ошибка). В стилях не ошибся, тексты распознал верно.
DeepSeek R1
Скриншот
78d34ce7c567b8abbf433043ee88a36f.png

DeepSeek R1 подробно расписал в том числе и маркеры стилей текстов и в целом распределил их верно. Однако, на мой взгляд, достаточно странно объединять публицистический и научно-популярный стиль в одну группу — это можно счесть за неточность.
Claude 3.7 Sonnet
Скриншот
04a5ef069f3a0cad979bc6f40dd7713e.png

Claude 3.7 Sonnet также сопроводил разделение текстов и их группировку обоснованием и кратким анализом, в самом ответе ошибок он не допустил.
Gemini 2.5 Pro
Скриншот
5a973233858ecf2d56f14aa5ece8f780.png

Gemini 2.5 Pro в целом справилась с задачей, однако следует заметить, что не все специалисты относят рекламные тексты к публицистическому стилю (вопрос дискуссионный). Опять-таки этот спорный момент в запросе уточнён не был, так что претензий нет.
Генерация
Написание сценария минутного ролика для продвижения
Промт:
Напиши сценарий минутного ролика для продвижения зоомагазина.
Учитывай следующие данные:

  1. Целевая аудитория — владельцы животных.
  2. Зоомагазин специализируется на аквариумных рыбках и товарах для аквариумов, но имеет и базовые для зоомагазинов товары по типу кормов, игрушек и т. п. для домашних животных.
ChatGPT o1 Pro
Скриншот
8dc343cae4116dfca31ba9225ac15ea5.png

ChatGPT o1 Pro написал довольно-таки базовый, но хороший сценарий, отвечающий всем требованиям промта. Описание самих кадров можно было прописать подробнее (здесь пригодился бы уточняющий промт).
DeepSeek R1
Скриншот
7cd19879e5bee72aad6a4c333fdcb8bc.png

DeepSeek R1 также написал качественный сценарий, однако здесь есть уже пара нареканий: во-первых, почему-то указано название магазина, о котором ничего не сказано в промте, а во-вторых, отсутствует чётко прописанное соответствие сцен их времени (как это сделал ChatGPT o1 Pro).
Claude 3.7 Sonnet
Скриншот
3527ec26962f016dc36e9dea0f6cc179.png

Claude 3.7 Sonnet также добавил название магазина, хоть оно и не было указано в промте, и не расписал тайминг. Но хочется отметить подробное изложение как текста, так и монтажа.
Gemini 2.5 Pro
Скриншот
7eaa4371c5dc475db66e431443791bc6.png

Что важный плюс, Gemini 2.5 Pro сразу же прописал цель и настроение, выделил ключевые моменты, на которые нужно обратить внимание, и даже предложил название для ролика. Также он представил ответ в виде таблицы с таймингами, видеорядом и звуком, что, на мой взгляд, является наиболее удобным из всех ответов моделей.
Написание слоганов
Промт:
Придумай 5 вариантов цепляющих слоганов для сервиса доставки здорового питания. Учти следующие моменты:
  1. Упор на экономию времени.
  2. Целевая аудитория — удалёнщики, люди, ведущие активный образ жизни.
ChatGPT o1 Pro
Скриншот
7596f621652b560c87459f7c426a9319.png

ChatGPT o1 Pro действительно сделал упор на экономию времени, однако целевая аудитория в вариантах ИИ почти не учитывается, что является недостатком.
DeepSeek R1
Скриншот
9ff24f614c17628f91e8d00e6487f7f9.png

DeepSeek R1 учёл уже оба требования в промте и даже написал краткие пояснения и
предложил креативные ходы — в том числе для оформления слоганов.
Claude 3.7 Sonnet
Скриншот
d3b171d65f3e507e9f66422ed1351002.png

Claude 3.7 Sonnet предложил неплохие слоганы, отвечающие требованиям промта, однако формулировка последнего несколько странная («Заряжайся энергией, а не плитой»). Да что там странная, она просто некорректная.
Gemini 2.5 Pro
Скриншот
78ed7d68f8f6713a5fa61dcfc6927b48.png

У Gemini 2.5 Pro вышел самый детальный ответ среди всех моделей, но требования промта по ЦА соблюдены только в первом варианте, остальные же просто универсальны. Это подошло бы, если бы мы не задали чётких требований, на что нужно сделать упор.
Работа с информацией
Резюмирование текста
Промт:
Сократи текст юридического договора (файл прикреплён) до 10-15 ключевых пунктов. Напиши их простым языком, понятным неподготовленному читателю.
ChatGPT o1 Pro
Скриншот
4bfe665d700069dc42563a415f5ba14b.png

ChatGPT o1 Pro точно и без отступлений от исходного документа отразил ключевые пункты, представив их в удобном и понятном виде.
DeepSeek R1
Скриншот
a2d0ea74cd2f0833064801575b9cfa46.png

DeepSeek R1 также предоставил качественный ответ, полностью соответствующий промту, без ошибок и неточностей.
Claude 3.7 Sonnet
Скриншот
776d09ea0802fb95f077702e915df635.png

Claude 3.7 Sonnet тезисно отразил ключевые положения договора, но вдобавок следовало бы прописать права адвоката и доверителя (заказчика).
Gemini 2.5 Pro
Скриншот
fc9157f56bccef4f0366355365c20ab7.png

В отличие от оппонентов, Gemini 2.5 Pro дал более живой и разговорный ответ, не разбивая его на подпункты. Возможно, кому-то такое изложение будет более понятно. Вся необходимая информация также была изложена.
Сравнительный анализ (с аргументацией и выводами)
Промт:
Сравни фитнес-трекеры Fitbit и Xiaomi Mi Band (подбери лучшие модели) по параметрам:
  1. Точность измерения пульса/шагов (сравнение с эталонными датчиками).
  2. Удобство интерфейса, его интуитивная понятность пользователю.
  3. Прогнозирование здоровья (оценка алгоритмов).
  4. Качество.
  5. Цена.
ChatGPT o1 Pro
Скриншот
ee90d3966d0f1b8bc6d961eda8e41f97.png

ChatGPT o1 Pro предоставил подробную сводку по всем параметрам, указанным в промте, раскрывая как сильные, так и слабые стороны моделей. И в целом с отзывами по этим товарам его ответ сходится, то есть фактическая неточность тут минимальна (и то потому, что отзывы — это мнение людей, которое может разниться). Сопоставление, которое сделал ИИ, легко воспринимается, когда его читаешь.
DeepSeek R1
Скриншот
02bccbcc122c79f966d5d1e332a8b1b3.png

DeepSeek R1 тоже сгенерировал простое и удобное для восприятия сопоставление, сопроводив краткими выводами по каждому разделу. Справился с задачей ничуть не хуже, чем ChatGPT o1 Pro, только несколько по-другому структурировал информацию. Тут судить, что вышло лучше, затруднительно, поскольку оценку можно дать только субъективную.
Claude 3.7 Sonnet
Скриншот
e065463f1a260416d19ef7961c9ff3a1.png

Claude 3.7 Sonnet в целом наиболее удачно структурирует информацию. В данной задаче он предоставил краткие пункты с основной информацией по всем разделам, указанным в промте. Воспринимается такой формат, на мой взгляд, легче всего.
Gemini 2.5 Pro
Скриншот
a6a62aee9459118fc214e655457f17c1.png

Gemini 2.5 Pro сопроводил ответ сравнительной таблицей, что всегда в плюс удобству, однако несколько перегрузил свой ответ информацией, из-за чего он воспринимается перегруженным. В остальном генерация соответствует промту.
Обработка данных (преобразование статьи в сводку для инфографики с выводами)
Промт:
Вычлени из этой статьи со статистическими данными (файл прикреплён) ключевую информацию для создания наглядной инфографики (процентное соотношение ответов респондентов) и напиши выводы к ней в соответствии с текстом статьи (или же возьми их из её текста).
ChatGPT o1 Pro
Скриншот
3eef89d1f88e3ced158fbed83a4d1578.png

Сразу стоит отметить, что статья написана довольно запутанно, не соблюдается даже чёткое абзацное членение по вопросам, на которые отвечали распонденты. ChatGPT o1 Pro удачно разделил ответы по группам, не совершив ошибок в данных, и привёл выводы, соответствующие тексту статьи.
DeepSeek R1
Скриншот
330b866054b4971ceda45207eed4542d.png

DeepSeek R1 тоже удачно сгруппировал данные, не сделав в них ошибок, — даже более удобно для понимания, чем это сделал ChatGPT o1 Pro.
Claude 3.7 Sonnet
Скриншот
77509b2b16babe5e3d1a68060b3f45f1.png

Claude 3.7 Sonnet хорошо структурировал данные по группам, но добавил лишнее значение (СМС/пуш-уведомления ~20%), хотя и с пометкой, что данные не названы. Однако в статье проценты приведены выборочно (тут вопросы к самой статье), так что приводить цифру не очень корректно. Также Claude 3.7 Sonnet привёл больше всех выводов по статье.
Gemini 2.5 Pro
Скриншот
b97efb48326d8819eb46e181701e9e43.png

Gemini 2.5 Pro представил ответ в самом кратком виде, группы он распределил по вопросам, но менее удобно и понятно, чем, например, ChatGPT o1 Pro и Claude 3.7 Sonnet.
Обучение и саморазвитие
Объяснение сложного материала простым языком
Промт:
Изложи материал (файл прикреплён) в 10-17 предложениях так, чтобы понял 10-летний ребёнок: приводи бытовые аналогии и т. п.
ChatGPT o1 Pro
Скриншот
4bd27e9844ded6671ba08932824b1cba.png

ChatGPT o1 Pro привёл понятные аналогии, но наличие общего повествования прибавило бы ясности — с ребенком легче поделиться текстом, представленным единым рассказом.
DeepSeek R1
Скриншот
5f926161c15a06c9c4673e53f647bdc6.png

DeepSeek R1 построил целый тезисный рассказ из понятных ребёнку аналогий. Нейросеть даже упомянула открывшего рентген учёного. Основная задача выполнена: принцип действия объяснён максимально просто, а также приведены способы применения рентгена, что наверняка заинтересует ребёнка.
Claude 3.7 Sonnet
Скриншот
47a8a86dcfb54885025bcb4c5a0151b5.png

Claude 3.7 Sonnet, как и Gemini 2.5 Pro далее, предоставил уже действительно полноценный рассказ. Он дал несколько меньше информации, чем ChatGPT o1 Pro и DeepSeek R1, однако изложил её языком, наиболее подходящим для интересного объяснения ребёнку.
Gemini 2.5 Pro
Скриншот
78d6643d84be35911497ae36b5508443.png

Gemini 2.5 Pro, пожалуй, адаптировал материал под ребёнка лучше всех остальных моделей (немного пожертвовав фактической точностью).
Составление общего алгоритма/плана действий
Промт:
Создай общий алгоритм действий для подготовки и путешествия в другую страну. Учти все важные действия (например, оформление документов, упаковка вещей, организация транспорта и гостиницы и т. п.). Страна отправления Россия.
ChatGPT o1 Pro
Скриншот
da92db4f952eabfa08b65a3c3679608d.png
c40498d61180a2e55bf9ead5238885b0.png

ChatGPT o1 Pro составил максимально детализированный план, учтя все важные моменты для поездки. Материал структурирован удобными разделами и подпунктами, в предполагаемой хронологии.
DeepSeek R1
Скриншот
9de747828e2ae48b28d1d0cb892e0425.png

DeepSeek R1 тоже представил план, соответствующий промту, но сделал его чуть более детализированным. А также прописал возвращение из поездки, чего ChatGPT o1 Pro, кстати, не сделал. Кроме того, R1 сопроводил текст дополнительными советами, что тоже ему в плюс.
Claude 3.7 Sonnet
Скриншот
1aeef1a56e86c6f8d3278e0f448d68d1.png

Преимущества генерации Claude 3.7 Sonnet — подробный план в части с документами и, кроме того, важный пункт о финальной проверке. Он отличается чёткостью и информативностью, которые очень гармонично сочетаются в алгоритме.
Gemini 2.5 Pro
Скриншот
b7e3c6c09d763044ae6e63fd52f129b6.png

В ответе Gemini 2.5 Pro я отмечу важные временные разграничения, с помощью которых легче распланировать последовательность своих действий и в общем следовать алгоритму.

Выводы​

Итак, сначала вернёмся к заданным в самом начале вопросам.
Какая модель лучше справляется с рутинными задачами?
В целом наилучшие результаты в рутинных задачах (классификация данных, резюмирование, обработка информации) демонстрирует DeepSeek R1.
Почему:
  • Высокая скорость обработки;
  • Оптимальный уровень детализации;
  • Минимальные ошибки.
ChatGPT o1 Pro тоже эффективен в рутине, но иногда уступает в адаптивности (например, пропуск этапа возвращения в алгоритме путешествия), а также дольше генерирует ответы, ну и, конечно, это более затратная модель.
Есть ли универсальный лидер или выбор зависит от сценария?
Выбор модели действительно зависит от задачи:
  • Claude 3.7 Sonnet — работа с кодом и длинными текстами; задачи, требующие этической фильтрации;
  • Gemini 2.5 Pro — аналитика, логические выводы и в целом объёмные задачи (за счёт большого контекстного окна);
  • DeepSeek R1 — рутинные операции, задачи с жёсткими требованиями к структуре;
  • ChatGPT o1 Pro — креативные и мультимодальные, объёмные задачи.
Насколько значима разница в качестве ответов моделей?
Разница существенна в узких сценариях, но минимальна в общих задачах.
Так, например, в классификации изображений Claude и Gemini дали идеальные результаты, тогда как ChatGPT ошибся в порядке. В генерации слоганов DeepSeek и Gemini показали лучший уровень креативности, а Gemini частично проигнорировал целевую аудиторию. В объяснении материала для детей Gemini адаптировал контент лучше всех, но частично потерял фактическую точность, а DeepSeek удалось сохранить баланс.
Ну и приведём сравнительную таблицу.
Критерии
ChatGPT o1 Pro
DeepSeek R1
Claude 3.7 Sonnet
Gemini 2.5 Pro
Скорость ответа
Ниже, чем у остальных (в данных запросах)​
Очень высокая​
Средняя​
Средняя​
Соответствие промту
9/10​
9/10​
8/10​
7/10 (бывают отклонения)​
Понимание контекста
Отличное​
Отличное​
Лучшее (гибкое мышление)​
Глубокое, но избыточное​
Точность ответов
9/10​
10/10​
8/10​
7/10 (иногда жертвует точностью в угоду стилю ответа)​
Поддержка форматов
Широкая​
Умеренная: на изображениях распознаёт только текст (но не объекты)​
Широкая​
Самая широкая​
Структура
Чёткая, логичная; при этом периодически текст труден для восприятия​
Чёткая, логичная, в меру детализированная​
Чёткая, логичная, при этом лаконичная​
Зачастую перегруженный текст, бывают логические нарушения​
Креативность
Средняя​
Высокая​
Низкая​
Высокая​
Адаптивность
Средняя​
Высокая​
Средняя​
Низкая​
Уровень детализации
Оптимальный​
Оптимальный​
Минимальный​
Избыточный​
Естественность языка
Высокая​
Высокая​
Средняя​
Высокая​

Ну и что в итоге?​

Если уж выбирать одну модель на все случаи жизни, то наиболее универсальными вариантами являются DeepSeek R1 и Gemini 2.5 Pro.
Если же рассматривать специализацию или уклон задач, то модели распределятся приблизительно следующим образом:
  • Маркетинг (слоганы, сценарии) — DeepSeek R1
  • Аналитика (работа с big data) — Gemini 2.5 Pro
  • Разработка (код, безопасность) — Claude 3.7 Sonnet
  • Контент (баланс креатива и точности) — ChatGPT o1 Pro
В общем, гиганты искусственной мысли, на работу которых мы смотрели сегодня, показали достойные друг друга результаты, однако будем помнить, что если у вашей задачи есть какая-то определённая спецификация, то для неё могут быть оптимальны разные нейросети.







 
  • Теги
    нейросети
  • Назад
    Сверху Снизу