Сравнение GPU NVIDIA: от V100 до B300


Что такое Tensor Core GPU

NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.

Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.

Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.

В облаке Cloud4Y представлены все ключевые поколения этих карт: серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.

Сводная таблица: все GPU Cloud4Y

Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.

V100 A100 H100 H200 B200 B300 RTX 4090 A6000 Ada RTX 5090
Архитектура Volta Ampere Hopper Hopper Blackwell Blackwell Ultra Ada Lovelace Ada Lovelace Blackwell
Год 2017 2020 2022 2024 2025 2025 2022 2022 2025
Сегмент ЦОД ЦОД ЦОД ЦОД ЦОД ЦОД Раб. станция Раб. станция Раб. станция
FP64 7.8 TFLOPS 9.7 TFLOPS 34 TFLOPS 34 TFLOPS 37 TFLOPS 1.2 TFLOPS
FP32 15.7 TFLOPS 19.5 TFLOPS 67 TFLOPS 67 TFLOPS 75 TFLOPS 75 TFLOPS 82.6 TFLOPS 91.1 TFLOPS 104.8 TFLOPS
TF32 Tensor 312 TFLOPS 989 TFLOPS 989 TFLOPS 2.2 PFLOPS 2.2 PFLOPS
FP16/BF16 Tensor 125 TFLOPS 624 TFLOPS 1979 TFLOPS 1979 TFLOPS 4.5 PFLOPS 4.5 PFLOPS 330 TFLOPS 364 TFLOPS ~420 TFLOPS
FP8 Tensor 3958 TFLOPS 3958 TFLOPS 9 PFLOPS 9 PFLOPS 660 TFLOPS 728 TFLOPS ~840 TFLOPS
FP4 Tensor (Dense) 9 PFLOPS до 15 PFLOPS
Память 32 ГБ HBM2 80 ГБ HBM2e 80 ГБ HBM3 141 ГБ HBM3e 192 ГБ HBM3e 288 ГБ HBM3e 24 ГБ GDDR6X 48 ГБ GDDR6 ECC 32 ГБ GDDR7
Проп. памяти 900 ГБ/с 2 ТБ/с 3.35 ТБ/с 4.8 ТБ/с до 8 ТБ/с до 8 ТБ/с 1.01 ТБ/с 960 ГБ/с 1.79 ТБ/с
NVLink 300 ГБ/с 600 ГБ/с 900 ГБ/с 900 ГБ/с 1.8 ТБ/с 1.8 ТБ/с
TDP 300 Вт 400 Вт 700 Вт 700 Вт 1000 Вт 1400 Вт 450 Вт 300 Вт 575 Вт

Источники: Exxact Corp (A100–B200); NVIDIA Technical Blog (B300 — 288 ГБ, 8 ТБ/с, до 15 PFLOPS FP4); NVIDIA Datasheets (V100, H100 — bandwidth 3.35 ТБ/с); TechPowerUp (RTX 4090, A6000 Ada); RunPod (RTX 5090). H100/H200 FP16 = 1979 TFLOPS, FP8 = 3958 TFLOPS — точные значения NVIDIA.

Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — до 15 PFLOPS.

Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.

Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.

Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса моделей до 13B. A6000 Ada — единственная из них с 48 ГБ ECC-памяти.

Нужно ли обновляться?

«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.

Разворачиваете новую AI-инфраструктуру → Blackwell

Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).

По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.

Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.

Обновляете существующий парк H100 или H200 → гибридная стратегия

Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.

Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.

Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.

NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.

Тарифы

Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.

GPU ₽/час ₽/мес. Типовой сценарий
Tesla V100 32 ГБ 147 68 814* Компьютерное зрение, OCR, классический ML, рендер
Tesla A100 40 ГБ 155 72 410* Дообучение и инференс моделей до 7B, MIG, классический ML
Tesla H100 80 ГБ 686 321 157* Обучение трансформеров, инференс 13–70B
Tesla H200 141 ГБ 686 321 157* Инференс LLM 70B+, длинные контексты
Tesla B200 180 ГБ 1 123 525 559* Флагманские модели, HPC + AI
Tesla B300 288 ГБ 1 116 803 306 Инференс 100B+ с FP4, большой KV-кэш
RTX 4090 24 ГБ 100 72 061* Stable Diffusion, инференс до 13B
RTX 5090 24 ГБ 83 75 667* Инференс FP4 до 24B, рендер, Stable Diffusion
RTX A6000 Ada 48 ГБ 105 81 967* Промышленный инференс 13–30B, ECC

* Цена указана с учётом скидки. Актуальный прайс и условия.


Метрика эффективности

Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.

Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.

Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.

Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.

Почему аренда GPU в Cloud4Y выгоднее покупки

Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.

•       Капзатраты → операционные. При аренде вы платите только за реально использованные часы.

•       ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.

•       ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.

•       Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.

•       Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.

Заключение

Выбор GPU — не про «берём самое новое». Правильная формула: берём карту, у которой себестоимость единицы результата минимальна. Для моделей 70B+ — H200 или Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.

Cloud4Y даёт доступ ко всему диапазону: от V100 до B300, с почасовой оплатой и в рамках российского правового поля.

Подобрать конфигурацию: cloud4y.ru/cloud-hosting/gpu


Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).



Полезный материал?
0
0
Автор: Олег
опубликовано: 17.04.2026
Читайте нас: 
Последние статьи
Вверх!