Что такое Tensor Core GPU
NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.
Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.
Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.
В облаке Cloud4Y представлены все ключевые поколения этих карт: доступны в аренду серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.
Сводная таблица: все GPU Cloud4Y
Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.
Краткий ориентир по строкам таблицы:
- FP32, FP16, FP8 — вычислительная мощность на разных форматах точности. Чем больше — тем быстрее выполняются задачи. FP16 и FP8 — основные форматы для AI.
- Память — сколько данных помещается «в карту». Определяет, модель какого размера можно запустить.
- Проп. памяти — скорость подачи данных в вычислитель. Критична для инференса больших моделей.
- NVLink — межкарточное соединение. Есть только у серверных GPU, позволяет объединять карты в кластер.
- TDP — энергопотребление. Влияет на стоимость эксплуатации и требования к охлаждению.
Производительность в таблице указана в TFLOPS (триллионов операций с плавающей точкой в секунду). Чем больше значение — тем быстрее карта выполняет вычисления на данной точности.
| V100 | A100 | H100 | H200 | B200 | B300 | RTX 4090 | A6000 Ada | RTX 5090 | RTX 6000 Blackwell | |
|---|---|---|---|---|---|---|---|---|---|---|
| Архитектура | Volta | Ampere | Hopper | Hopper | Blackwell | Blackwell Ultra | Ada Lovelace | Ada Lovelace | Blackwell | Blackwell |
| Год | 2017 | 2020 | 2022 | 2024 | 2025 | 2025 | 2022 | 2022 | 2025 | 2025 |
| Сегмент | ЦОД | ЦОД | ЦОД | ЦОД | ЦОД | ЦОД | Раб. станция | Раб. станция | Раб. станция | Раб. станция |
| FP64 | 7.8 TFLOPS | 9.7 TFLOPS | 34 TFLOPS | 34 TFLOPS | 37 TFLOPS | 1.2 TFLOPS | — | — | — | — |
| FP32 | 15.7 TFLOPS | 19.5 TFLOPS | 67 TFLOPS | 67 TFLOPS | 75 TFLOPS | 75 TFLOPS | 82.6 TFLOPS | 91.1 TFLOPS | 104.8 TFLOPS | 125 TFLOPS |
| TF32 Tensor | — | 312 TFLOPS | 989 TFLOPS | 989 TFLOPS | 2200 TFLOPS | 2200 TFLOPS | — | — | — | — |
| FP16/BF16 Tensor | 125 TFLOPS | 624 TFLOPS | 1979 TFLOPS | 1979 TFLOPS | 4500 TFLOPS | 4500 TFLOPS | 330 TFLOPS | 364 TFLOPS | 419 TFLOPS | 500 TFLOPS |
| FP8 Tensor | — | — | 3958 TFLOPS | 3958 TFLOPS | 9000 TFLOPS | 9000 TFLOPS | 660 TFLOPS | 728 TFLOPS | 838 TFLOPS | 1000 TFLOPS |
| FP4 Tensor (Dense) | — | — | — | — | 9000 TFLOPS | 15000 TFLOPS | — | — | 1676 TFLOPS | 2000 TFLOPS |
| Память | 32 ГБ HBM2 | 80 ГБ HBM2e | 80 ГБ HBM3 | 141 ГБ HBM3e | 192 ГБ HBM3e | 288 ГБ HBM3e | 24 ГБ GDDR6X | 48 ГБ GDDR6 | 32 ГБ GDDR7 | 96 ГБ GDDR7 |
| Проп. памяти | 900 ГБ/с | 2 ТБ/с | 3.35 ТБ/с | 4.8 ТБ/с | 8 ТБ/с | 8 ТБ/с | 1.01 ТБ/с | 960 ГБ/с | 1.79 ТБ/с | 1.8 ТБ/с |
| NVLink | 300 ГБ/с | 600 ГБ/с | 900 ГБ/с | 900 ГБ/с | 1.8 ТБ/с | 1.8 ТБ/с | — | — | — | — |
| TDP | 300 Вт | 400 Вт | 700 Вт | 700 Вт | 1000 Вт | 1400 Вт | 450 Вт | 300 Вт | 575 Вт | 600 Вт |
*Источники: NVIDIA Datasheets (V100, A100, H100, H200, B200, RTX PRO 6000 Blackwell); NVIDIA Technical Blog «Inside NVIDIA Blackwell Ultra» (B300, январь 2026); Exxact Corporation (A100–B200); TechPowerUp GPU Database (RTX 4090, A6000 Ada); Notebookcheck, Spheron, GPUPoet (RTX 5090 — 3352 AI TOPS FP4 sparse, пересчёт в dense: FP16 = 419, FP8 = 838, FP4 = 1676 TFLOPS); WareDB (RTX PRO 6000 Blackwell — FP16 dense = 500, пересчёт: FP8 = 1000, FP4 = 2000 TFLOPS); Leadtek (RTX PRO 6000 Blackwell — 4000 AI TOPS FP4 sparse).
Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — 15 PFLOPS.Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.
Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.
Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса. RTX 6000 Blackwell с 96 ГБ ECC-памяти занимает уникальную нишу между рабочими станциями и серверными GPU: это единственная несерверная карта, способная запустить 70B-модель в FP8 на одном ускорителе.
Нужно ли обновляться?
«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.
Разворачиваете новую AI-инфраструктуру → Blackwell
Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).
По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.
Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.
Обновляете существующий парк H100 или H200 → гибридная стратегия
Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.
Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.
Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.
NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.
Тарифы
Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.
| GPU | ₽/час | ₽/мес. | Типовой сценарий |
|---|---|---|---|
| Tesla V100 32 ГБ | 147 | 68 814* | Компьютерное зрение, OCR, классический ML, рендер |
| Tesla A100 40 ГБ | 155 | 72 410* | Дообучение и инференс моделей до 7B, MIG, классический ML |
| Tesla H100 80 ГБ | 686 | 321 157* | Обучение трансформеров, инференс 13–70B |
| Tesla H200 141 ГБ | 686 | 321 157* | Инференс LLM 70B+, длинные контексты |
| Tesla B200 180 ГБ | 1 123 | 525 559* | Флагманские модели, HPC + AI |
| Tesla B300 288 ГБ | 1 116 | 803 306 | Инференс 100B+ с FP4, большой KV-кэш |
| RTX 4090 24 ГБ | 100 | 72 061* | Stable Diffusion, инференс до 13B |
| RTX 5090 24 ГБ | 83 | 75 667* | Инференс FP4 до 24B, рендер, Stable Diffusion |
| RTX A6000 Ada 48 ГБ | 105 | 81 967* | Промышленный инференс 13–30B, ECC |
| RTX 6000 Blackwell 96 ГБ | 137 | 98 364* | Инференс 70B в FP8 на одной карте, 96 ГБ ECC |
* Цена указана с учётом скидки. Актуальный прайс и условия.
Метрика эффективности
Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.
Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.
Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.
Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.
Почему аренда GPU в Cloud4Y выгоднее покупки
Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.
• Капзатраты → операционные. При аренде вы платите только за реально использованные часы.
• ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.
• ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.
• Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.
• Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.
Заключение
Выбор GPU определяется не новизной карты, а стоимостью результата. Правильная формула: карта, у которой себестоимость единицы работы минимальна. Для моделей 70B+ — H200 или Blackwell. Для инференса 70B на одной карте без серверной инфраструктуры — RTX 6000 Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.
Cloud4Y даёт доступ ко всему диапазону: от V100 до B300 и RTX 6000 Blackwell, с почасовой оплатой и в рамках российского правового поля.
Чтобы подобрать сервер с GPU в аренду, перейдите по ссылке.
Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).