Что такое Tensor Core GPU
NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.
Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.
Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.
В облаке Cloud4Y представлены все ключевые поколения этих карт: серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.
Сводная таблица: все GPU Cloud4Y
Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.
| V100 | A100 | H100 | H200 | B200 | B300 | RTX 4090 | A6000 Ada | RTX 5090 | |
|---|---|---|---|---|---|---|---|---|---|
| Архитектура | Volta | Ampere | Hopper | Hopper | Blackwell | Blackwell Ultra | Ada Lovelace | Ada Lovelace | Blackwell |
| Год | 2017 | 2020 | 2022 | 2024 | 2025 | 2025 | 2022 | 2022 | 2025 |
| Сегмент | ЦОД | ЦОД | ЦОД | ЦОД | ЦОД | ЦОД | Раб. станция | Раб. станция | Раб. станция |
| FP64 | 7.8 TFLOPS | 9.7 TFLOPS | 34 TFLOPS | 34 TFLOPS | 37 TFLOPS | 1.2 TFLOPS | — | — | — |
| FP32 | 15.7 TFLOPS | 19.5 TFLOPS | 67 TFLOPS | 67 TFLOPS | 75 TFLOPS | 75 TFLOPS | 82.6 TFLOPS | 91.1 TFLOPS | 104.8 TFLOPS |
| TF32 Tensor | — | 312 TFLOPS | 989 TFLOPS | 989 TFLOPS | 2.2 PFLOPS | 2.2 PFLOPS | — | — | — |
| FP16/BF16 Tensor | 125 TFLOPS | 624 TFLOPS | 1979 TFLOPS | 1979 TFLOPS | 4.5 PFLOPS | 4.5 PFLOPS | 330 TFLOPS | 364 TFLOPS | ~420 TFLOPS |
| FP8 Tensor | — | — | 3958 TFLOPS | 3958 TFLOPS | 9 PFLOPS | 9 PFLOPS | 660 TFLOPS | 728 TFLOPS | ~840 TFLOPS |
| FP4 Tensor (Dense) | — | — | — | — | 9 PFLOPS | до 15 PFLOPS | — | — | ✓ |
| Память | 32 ГБ HBM2 | 80 ГБ HBM2e | 80 ГБ HBM3 | 141 ГБ HBM3e | 192 ГБ HBM3e | 288 ГБ HBM3e | 24 ГБ GDDR6X | 48 ГБ GDDR6 ECC | 32 ГБ GDDR7 |
| Проп. памяти | 900 ГБ/с | 2 ТБ/с | 3.35 ТБ/с | 4.8 ТБ/с | до 8 ТБ/с | до 8 ТБ/с | 1.01 ТБ/с | 960 ГБ/с | 1.79 ТБ/с |
| NVLink | 300 ГБ/с | 600 ГБ/с | 900 ГБ/с | 900 ГБ/с | 1.8 ТБ/с | 1.8 ТБ/с | — | — | — |
| TDP | 300 Вт | 400 Вт | 700 Вт | 700 Вт | 1000 Вт | 1400 Вт | 450 Вт | 300 Вт | 575 Вт |
Источники: Exxact Corp (A100–B200); NVIDIA Technical Blog (B300 — 288 ГБ, 8 ТБ/с, до 15 PFLOPS FP4); NVIDIA Datasheets (V100, H100 — bandwidth 3.35 ТБ/с); TechPowerUp (RTX 4090, A6000 Ada); RunPod (RTX 5090). H100/H200 FP16 = 1979 TFLOPS, FP8 = 3958 TFLOPS — точные значения NVIDIA.
Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.
Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.
Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса моделей до 13B. A6000 Ada — единственная из них с 48 ГБ ECC-памяти.
Нужно ли обновляться?
«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.
Разворачиваете новую AI-инфраструктуру → Blackwell
Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).
По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.
Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.
Обновляете существующий парк H100 или H200 → гибридная стратегия
Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.
Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.
Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.
NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.
Тарифы
Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.
| GPU | ₽/час | ₽/мес. | Типовой сценарий |
|---|---|---|---|
| Tesla V100 32 ГБ | 147 | 68 814* | Компьютерное зрение, OCR, классический ML, рендер |
| Tesla A100 40 ГБ | 155 | 72 410* | Дообучение и инференс моделей до 7B, MIG, классический ML |
| Tesla H100 80 ГБ | 686 | 321 157* | Обучение трансформеров, инференс 13–70B |
| Tesla H200 141 ГБ | 686 | 321 157* | Инференс LLM 70B+, длинные контексты |
| Tesla B200 180 ГБ | 1 123 | 525 559* | Флагманские модели, HPC + AI |
| Tesla B300 288 ГБ | 1 116 | 803 306 | Инференс 100B+ с FP4, большой KV-кэш |
| RTX 4090 24 ГБ | 100 | 72 061* | Stable Diffusion, инференс до 13B |
| RTX 5090 24 ГБ | 83 | 75 667* | Инференс FP4 до 24B, рендер, Stable Diffusion |
| RTX A6000 Ada 48 ГБ | 105 | 81 967* | Промышленный инференс 13–30B, ECC |
* Цена указана с учётом скидки. Актуальный прайс и условия.
Метрика эффективности
Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.
Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.
Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.
Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.
Почему аренда GPU в Cloud4Y выгоднее покупки
Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.
• Капзатраты → операционные. При аренде вы платите только за реально использованные часы.
• ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.
• ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.
• Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.
• Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.
Заключение
Выбор GPU — не про «берём самое новое». Правильная формула: берём карту, у которой себестоимость единицы результата минимальна. Для моделей 70B+ — H200 или Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.
Cloud4Y даёт доступ ко всему диапазону: от V100 до B300, с почасовой оплатой и в рамках российского правового поля.
Подобрать конфигурацию: cloud4y.ru/cloud-hosting/gpu
Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).