Обзор лучших LLM моделей в 2025 |Cloud4Y

Большие языковые модели прочно вошли в обиход. Без них уже невозможно представить современную жизнь. С помощью ИИ пользователи проводят аналитику, творят, пишут тексты, делают переводы, создают изображения и видео. И чтобы не отставать от быстро меняющегося мира нейросетей, важно разобраться, какие возможности открывают людям последние новинки. В этой статье представляем обзор лучших LLM в 2025 году.

Критерии отбора в мире LLM

Ещё в начале 2025 года эксперты анонсировали ключевое новшество последних моделей ИИ. Нас уверяли, что наиболее продвинутые LLM смогут демонстрировать ход своих рассуждений. И теперь ожидание ответа для пользователя заиграло яркими красками.

Встроенным «механизмом мышления» обладает и передовая Gemini 2.5 Pro Preview 06-05 от компании Google, занимающая верхнюю строчку рейтинга на сайте «llm-статистика». Чтобы охватить наиболее достойные LLM, при подготовке обзора мы будем ориентироваться на данные с этого ресурса.

LLM-статистика. Таблица лидеров.jpg

Другой важный источник информации о LLM (моделях) — WebDev Arena. Это действительно отличная арена для тестирования нейросетей. Онлайн-платформа поддерживает соревновательный дух среди разработчиков веб-приложений, интерфейсов и компонентов на HTML, CSS и JavaScript.

Пользователи WebDev Arena тестируют модели в режиме реального времени. В результате формируется довольно убедительный рейтинг. Чемпионами становятся LLM с наиболее точной выдачей ответов.

По данным WebDev Arena, модель Gemini 2.5 Pro, появившаяся в марте 2025-го, уже в апреле стала лидером. А 5 июня Google выпустил обновление, сделавшее Gemini ещё совершеннее.

Таблица лидеров WebDev Arena.jpg

Gemini 2.5 Pro Preview 06-05

Мультимодальная Gemini от Google ориентирована на решение сложных задач. Демонстрирует улучшенные возможности в плане рассуждений, понимания разных контекстов (текст, изображение, звук, видеоряд) и огромного окна токенов (1M). Предварительно показывает процесс «мышления», генерации кода, поиск Google и т. д. Обрабатывает до 3 тыс. изображений, 45-60 минут видео, более 8 часов аудио.

Ключевые возможности: у Gemini 2.5 Pro Preview 06-05 гибкие настройки под конкретный случай использования, мультимодальность (обрабатывает несколько форматов контента), прямой доступ к актуальной веб-инфомации.

Модель достигла существенного прогресса по ключевым бенчмаркам:

AIDER Polyglot, оценивающий многоязычные способности в программировании;

HLE (Humanity's Last Exam), тестирующий глубокое рассуждение и общие знания;

GPQA (Graduate-Level Google-Proof Q&A) — комплекс более сложных вопросов, призванных проверить способность к математическим расчётам и неочевидным выводам.

DeepSeek-R1-0528

Второе место в рейтинге WebDev Arena занимает последняя версия китайской компании DeepSeek, вышедшая в конце мая. DeepSeek-R1-0528 отличается улучшенными возможностями к рассуждениям и кодированию. Тестирование показало, что модель не уступает разработкам OpenAI, Anthropic и Google. DeepSeek сделал внушительный скачок в математике, программировании и общей логике.

Пользователи отмечают поразительную глубину рассуждений DeepSeek-R1-0528. Также вселяет доверие, что продолжительность подготовки ответа напрямую зависит от сложности задачи. DeepSeek стал писать более качественные тексты, а его тезисы кажутся намного осмысленнее, чем раньше. Однако пока модель имеет ограничения.

Ключевые возможности: у DeepSeek-R1-0528 нет веб-доступа к актуальной информации в режиме реального времени, отсутствует обработка разных форматов контента, пользователю доступна тонкая настройка под нужный запрос.

Claude Opus 4 (20250514)

В мае американская технологическая компания Anthropic представила две свои обновлённые LLM. Claude Opus 4 — флагманская модель, которую разработчики позиционируют как лучшую в мире для написания кода.

Среди усиленных характеристик — повышенная автономность. Claude Opus 4 способна без усилий со стороны человека посвятить 7 часов рефакторингу открытого кода. Opus 4 также прошёл успешно бенчмаркинг SWE-bench: с результатом 72,5% он обошёл ChatGPT4.1 от OpenAI (54.6%). Модель обладает улучшенной памятью, которая необходима для реализации долгосрочных проектов.

Ключевые возможности: у Claude Opus 4 гибкие настройки под конкретный случай использования, мультимодальность (обрабатывает несколько форматов контента), прямой доступ к актуальной веб-инфомации.

Claude Sonnet 4 (20250514)

Claude Sonnet 4 — модель для повседневных задач, это последняя версия компании Anthropic, превосходящая модель Sonnet 3.7, обладающая повышенной производительностью. На бенчмарке SWE-bench Verified модель также показала высокий результат — 72,7%? а значит, по качеству она не уступает Opus 4.

Ключевые возможности: у Claude Sonnet 4 гибкие настройки под конкретный случай использования, мультимодальность (обрабатывает несколько форматов контента), прямой доступ к актуальной веб-инфомации.

GPT-4.1-2025-04-14

GPT-4.1 — модель от Open AI, вышедшая в апреле, существенно превосходит своего предшественника по интеллекту, скорости решения задач и производительности. Это отличный пример малой LLM, обладающей более крупными контекстными окнами (до миллиона токенов контекста) и способной к лучшему пониманию контекста. База знаний GPT-4.1 пополнена вплоть до июня 2024-го.

Модель показала отличные результаты, опередившие отраслевые стандарты:

в программировании. GPT-4.1 прошёл SWE-bench на 54,6%, что на 21,4% лучше, чем у предшественника;
в следовании инструкциям. Тест Scale's MultiChallenge пройден на 38,3% (обошёл предыдущую модель на 10,5%);
в работе с длинным контекстом. Особенно важная способность мультимодальных LLM — понимание длинного контекста, в том числе

трактовке статических изображений. Тут для оценки используется комплексный тест «Видео-MME», в основе которого видеоанализ. GPT-4.1 справился с ним на 72%, обойдя GPT-4o на 6,7%.

Ключевые возможности: у GPT-4.1 гибкие настройки под конкретный случай использования, мультимодальность (обрабатывает несколько форматов контента), отсутствует прямой доступ к актуальной веб-инфомации.

Производители продолжают борьбу за создание лучшей языковой модели. А значит, применение ИИ открывает новые возможности для бизнеса, которому останется запустить, дообучить под свои задачи и масштабировать готовые модели. LLM-платформа от Cloud4Y отлично для этого подходит.

Заключение

Итак, в 2025 году лидирующие языковые модели демонстрируют значительные достижения в мультимодальности, скорости обработки и длине контекста. Среди них — GPT-4.1 и Gemini 2.5 Pro выделяются передовыми возможностями для реального взаимодействия с голосом и изображением. DeepSeek-R1-0528 поражает глубиной рассуждений, Claude Opus 4 — продолжительным рефакторингом кода без участия человека.

Gemini 2.5 Pro, новая модель компании Google, особенно эффективна при решении сложных логических задач благодаря контекстному окну в 1 миллион токенов и встроенной поддержке цепочек рассуждений, что делает эту LLM мощным инструментом для аналитики и глубокого понимания данных. Для работы с большими документами и длинными текстами Gemini 2.5 Pro установил новый стандарт, однако Open AI и Anthropic не отстают. Так, длина входного контекста GPT-4.1 уже превысила 1 млн токенов. Многочисленные тесты показывают, что LLM идут друг за другом с небольшим разрывом.

Впереди новые версии моделей от IT-гигантов — и новые уровни показателей производительности, точности ответов и понимания контекста.