Спрос на GPU-мощности растёт. Сегодня ускорители считают видеоаналитику на проходной, выполняют скоринговые модели в банке и держат чат-бота поддержки, который отвечает быстрее живого оператора. Вопрос для бизнеса прозаичен: где взять эти мощности и сколько они реально стоят. Аренда GPU выглядит очевидным ответом, но «очевидно» и «выгодно» — не синонимы. Ниже разберём, какая карта закрывает какую задачу, сколько видеопамяти нужно под конкретную модель, какие цены на рынке в 2026 году и при какой загрузке облачный GPU-сервер обходится дешевле собственного железа.
Зачем бизнесу GPU-ускорители и где заканчивается CPU
GPU против CPU: где разница в десятки раз, а где её нет
Процессор силён в последовательной логике: ветвления, сложные условия, работа с разнородными данными. GPU устроен иначе — это тысячи простых ядер, которые одновременно выполняют одну операцию над разными порциями данных. Когда задача раскладывается на множество одинаковых матричных умножений (а обучение и инференс нейросетей — это именно они), разрыв достигает 20–50 раз, а на тяжёлых моделях и больше.
Но превосходство не универсально. Если нагрузка плохо параллелится — единичные транзакции, бизнес-логика, операции с БД — GPU простаивает, а вы платите за дорогую карту, занятую на 5%. Критерий простой: ускоритель оправдан там, где есть поток однотипных вычислений и потребность в высокой пропускной способности. Для всего остального честнее и дешевле обычный CPU.
Типовые бизнес-задачи под ускорители: видеоаналитика, скоринг, чат-боты, рендеринг, R&D
Сценарии, где GPU окупается:
-
Видеоаналитика и компьютерное зрение — распознавание лиц и номеров, контроль СИЗ на производстве, подсчёт посетителей. С десятками потоков в реальном времени CPU не справляется.
-
Скоринг и предиктивная аналитика — кредитный риск, отток клиентов, прогноз спроса. Обучение на больших выборках ускоряется кратно.
-
Чат-боты и NLP — поддержка первой линии, обработка обращений, внутренние ассистенты по базе знаний.
-
Рендеринг, 3D-графика и транскодинг видео — архитектурная визуализация, спецэффекты, перекодирование медиапотоков.
-
R&D и научные расчёты (HPC) — моделирование, вычислительная химия, инженерные симуляции.
Заметьте: не каждой компании нужна обучающая инфраструктура. Многим достаточно инференса — запуска готовой модели, и это сильно меняет требования к железу и бюджету.
Карта GPU NVIDIA 2026: какая карта под какую задачу
Классы карт и их назначение: лёгкий инференс, fine-tuning, тяжёлое обучение
Линейка NVIDIA в 2026 году широка, и ориентироваться в ней проще по трём классам:
|
Класс задач |
Карты |
Типовой VRAM |
Под что берут |
|---|---|---|---|
|
Лёгкий инференс, видеоаналитика |
T4, L4, A2, A10 |
16–24 ГБ |
Небольшие модели, потоковое CV, эмбеддинги |
|
Средний инференс, LoRA |
RTX 4090, RTX A5000, L40S |
24–48 ГБ |
Модели до 13–30B, дообучение, генерация изображений |
|
Тяжёлое обучение, крупные LLM |
A100 40/80 ГБ, H100, H200, Blackwell (B300) |
80–288 ГБ |
Full fine-tuning, обучение с нуля, модели 70B+ |
Карты прошлых поколений — V100, P100, M60 — из эксплуатации не ушли: для умеренного инференса, рендеринга и терминальной графики их ресурса достаточно, а стоят они заметно меньше.
VRAM, тензорные ядра, NVLink, FP8: на какие характеристики смотреть
Тактовая частота для ML-задач второстепенна. Решают другие параметры:
-
VRAM (видеопамять) — главный лимит. Если модель и её рабочие данные не помещаются в память карты, она не запустится, какой бы быстрой ни была.
-
Тензорные ядра — специализированные блоки под матричные операции; именно они дают ускорение в обучении и инференсе.
-
NVLink — высокоскоростная шина между картами. Когда модель не влезает в одну GPU, NVLink объединяет память нескольких ускорителей без штрафа PCIe.
-
FP8 и Transformer Engine — вычисления пониженной точности на H100/H200 и новее. Удваивают пропускную способность на совместимых моделях почти без потери качества.
Проще говоря, под инференс смотрите в первую очередь на объём VRAM, под обучение крупных моделей — ещё и на NVLink с поддержкой современных форматов вычислений.
Дефицит и доступность: почему топовые карты идут «под предзаказ»
H100, H200 и свежие Blackwell на российском рынке часто доступны под заказ, с очередью в недели и поставкой по схемам параллельного импорта. Отсюда два следствия. Цена на такие карты нестабильна и выше мировой. И если проект зависит от конкретной карты, лучше заранее уточнить у провайдера фактическое наличие, а не ориентироваться на строчку в прайсе. Облачная аренда тут выигрывает: мощности уже стоят в ЦОД, и вам не нужно ждать поставку и проходить таможню.
Сколько VRAM нужно под вашу модель: точный расчёт
Инференс LLM и генеративных моделей: от 7B до 70B и Stable Diffusion
Базовое правило для инференса в FP16: примерно 2 ГБ VRAM на каждый миллиард параметров плюс запас на контекст и служебные буферы. Квантизация (GGUF, GPTQ, AWQ, формат Q4) сжимает веса до 4–5 бит и снижает требования в 3–4 раза почти без заметной деградации на большинстве прикладных задач.
|
Модель |
FP16 (полная точность) |
Q4 (квантизация) |
Класс карты |
|---|---|---|---|
|
LLM 7B |
15–17 ГБ |
5–6 ГБ |
RTX 4090 / даже L4 в Q4 |
|
LLM 13B |
27–30 ГБ |
9–11 ГБ |
RTX 4090, A100 40 ГБ |
|
LLM 70B |
~140 ГБ (2×80 ГБ) |
40–48 ГБ |
A100 80 ГБ, H100 |
|
Stable Diffusion / SDXL |
10–12 ГБ |
— |
RTX 4090, L40S |
Запустить «свой ChatGPT» на 7–13B в квантизации можно на одной потребительской карте. А полноценная 70B в полной точности — это уже минимум две карты по 80 ГБ и NVLink между ними.
Обучение и дообучение: full fine-tuning против LoRA и квантизации
Обучение требует кратно больше памяти, чем инференс: к весам добавляются градиенты, состояния оптимизатора и активации. Для full fine-tuning модели на 7B реалистично нужно 80–120 ГБ — несколько карт. Здесь и проявляется ценность LoRA (дообучение через небольшие адаптеры, не трогая основные веса): требования падают до 16–24 ГБ для той же 7B, и задача укладывается в одну RTX 4090 или A100 40 ГБ.
Для большинства бизнес-сценариев полное переобучение избыточно. LoRA или QLoRA (LoRA поверх квантизованной модели) дают нужное качество под конкретную предметную область при разумном бюджете. Полное обучение с нуля оставьте тем, кто строит собственную базовую модель, — это другой порядок расходов.
Модели тарификации и реальные цены в рублях
Почасовая, помесячная и прерываемые (spot) инстансы: когда что дешевле
Выбор схемы оплаты — это вопрос предсказуемости нагрузки:
-
Почасовая и посекундная — платите за фактическое время работы карты. Идеально для разовых задач: обучить модель за выходные, прогнать эксперимент, отрендерить ролик.
-
Помесячная (выделенная карта) — фиксированная плата за зарезервированный ускоритель. Дешевле в пересчёте на час, но вы платите и за простой.
-
Прерываемые (spot) инстансы — свободные мощности со скидкой 40–70%, которые провайдер может забрать при нехватке ресурсов. Хороши для обучения с контрольными точками и пакетной обработки, непригодны для продакшн-инференса с требованием доступности.
Цены в рублях на A100, H100, RTX 4090 и порог перехода на помесячную аренду
Ориентировочные рыночные цены российских провайдеров на 2026 год:
|
Карта |
Почасовая |
Помесячно (24/7) |
|---|---|---|
|
RTX 4090 (24 ГБ) |
60–90 ₽/час |
40 000–60 000 ₽ |
|
A100 (80 ГБ) |
190–250 ₽/час |
120 000–160 000 ₽ |
|
H100 (80 ГБ) |
350–500 ₽/час |
250 000–350 000 ₽ |
Точка перехода с почасовой на помесячную считается просто. Возьмём A100: помесячный тариф 140 000 ₽ и почасовой 230 ₽. Делим месячную плату на часовую ставку: 140 000 / 230 ≈ 610 часов. В месяце 730 часов. Значит, при загрузке выше ~610 часов (около 84% времени) выгоднее помесячный тариф, ниже — почасовой. Для проектов с равномерной круглосуточной нагрузкой ответ очевиден, для эпизодических задач почасовая оплата экономит ощутимо.
Цены ориентировочны и зависят от провайдера, поколения карты и срока контракта; разброс по рынку легко достигает ±25%.
Аренда, покупка или colocation: сравнение в деньгах
Методика расчёта TCO: capex, opex, амортизация, простой, инженерное время
Совокупная стоимость владения (TCO) — это сумма всех затрат за фиксированный срок. Возьмём горизонт 3 года и сценарий «нужна мощность уровня одной A100 80 ГБ». Сравним три варианта в одних деньгах за один период.
|
Статья затрат за 3 года |
Покупка сервера |
Colocation своего сервера |
Аренда облачного GPU (24/7) |
|---|---|---|---|
|
Капзатраты на сервер с A100 80 ГБ |
2 000 000 ₽ |
2 000 000 ₽ |
0 ₽ |
|
Размещение и электропитание |
90 000 ₽ (своя серверная, ~2,5 кВт с охлаждением) |
720 000 ₽ (20 000 ₽/мес стойко-место) |
входит в тариф |
|
Обслуживание, ЗИП, замена вентиляторов/БП |
180 000 ₽ |
150 000 ₽ |
входит в тариф |
|
Администрирование (часть ставки инженера) |
360 000 ₽ |
360 000 ₽ |
120 000 ₽ (только своя ОС и стек) |
|
Аренда карты |
— |
— |
5 040 000 ₽ (140 000 ₽ × 36) |
|
Итого за 3 года |
2 630 000 ₽ |
3 230 000 ₽ |
5 160 000 ₽ |
При круглосуточной загрузке собственный сервер за три года обходится почти вдвое дешевле аренды. Это ожидаемо: вы платите за железо один раз, а арендный поток идёт постоянно.
Суммы ориентировочны: для конкретной компании итог сдвинется в зависимости от закупочной цены карты, тарифа на электроэнергию и реальной доли занятости инженера.
Точка безубыточности: при какой загрузке выгоднее купить, а не арендовать
Картина переворачивается, как только загрузка падает. Покупка — это фиксированные расходы независимо от использования: те же 2 630 000 ₽ за 3 года, или около 73 000 ₽ в месяц. Аренда же платится только за реальные часы. Сравним помесячный эквивалент покупки с почасовой арендой по 230 ₽:
73 000 / 230 ≈ 317 часов в месяц.
Это и есть порог. Если карта реально занята меньше ~315–320 часов в месяц (порядка 43% времени), почасовая аренда выходит дешевле собственного железа. Выше этого — собственный сервер начинает выигрывать. Большинство пилотов, сезонных нагрузок и проектов с неравномерным спросом в этот порог не попадают, поэтому и начинают с аренды.
Гибрид: базовая нагрузка на своём железе, пики в облаке
Постоянную базовую нагрузку (например, продакшн-инференс, который работает всегда) держат на купленной карте, а пики — массовое дообучение, сезонные всплески, эксперименты — выносят в облако с почасовой оплатой. Так вы не переплачиваете за простой арендованной карты и не покупаете избыточный парк под редкие пики. По нашему опыту, для компаний с уже сложившимся продуктом и предсказуемым ядром нагрузки гибрид даёт лучшее соотношение затрат и гибкости.
Скрытые расходы: на чём счёт растёт сверх цены за час
Трафик, хранилище и простой: где прячется переплата
Цена за час GPU — это вершина айсберга. Реальный счёт формируют сопутствующие статьи, вынесенные в прайсе отдельно:
-
Исходящий трафик (egress) — выгрузка результатов, весов, датасетов наружу нередко тарифицируется отдельно и на больших объёмах превращается в заметную сумму.
-
Объектное хранилище — S3-совместимое хранилище под датасеты и контрольные точки. Сотни гигабайт весов хранятся месяцами и увеличивают счёт независимо от того, работает карта или нет.
-
Простой зарезервированной карты — при помесячной аренде вы платите за все 730 часов, даже если задача шла 200.
-
Минимальный срок аренды — у части провайдеров карта берётся минимум на сутки или месяц, и «на пару часов» не получится.
Чек-лист для финансовой модели проекта
Перед защитой бюджета прогоните проект по списку:
-
Сколько GPU-часов в месяц нужно фактически (а не «на всякий случай»)?
-
Какой объём данных хранится постоянно и сколько это стоит в месяц?
-
Сколько данных уходит наружу и по какому тарифу за egress?
-
Есть ли минимальный срок аренды и плата за простой?
-
Сколько времени инженера потребует поддержка инфраструктуры?
Когда все строки заполнены реальными числами, картина «дёшево или дорого» становится честной.
Производительность GPU-облака: бенчмарки, а не обещания
Токены в секунду и задержка на типовых задачах инференса
Цифры производительности помогают не переплатить за избыточную карту. Ориентиры по инференсу LLM (один поток, значения плавают в зависимости от длины контекста и движка):
-
Llama-класс 7B, Q4, RTX 4090 — ориентировочно 90–130 токенов/сек, задержка первого токена в пределах десятых долей секунды.
-
7B в FP16, A100 80 ГБ — около 50–70 токенов/сек на одном потоке, но при пакетной обработке (batching) суммарная пропускная способность вырастает до тысяч токенов/сек.
-
70B, две A100 80 ГБ с NVLink — порядка 15–25 токенов/сек на поток.
Ключевой нюанс: одиночный поток обманчив. В продакшне карта обслуживает десятки параллельных запросов, и здесь A100 с пакетной обработкой кратно обгоняет RTX 4090, хотя «в один поток» разница не так велика.
Оптимизация: vLLM, квантизация, Flash Attention и утилизация GPU
Прежде чем брать карту мощнее, выжмите максимум из имеющейся. Три рычага дают наибольший эффект:
-
vLLM — движок инференса с эффективным управлением памятью и пакетной обработкой; на потоке запросов поднимает суммарную пропускную способность в разы.
-
Квантизация — перевод модели в Q4/Q8 высвобождает VRAM и часто ускоряет инференс, позволяя уместить модель на карту попроще.
-
Flash Attention — оптимизированный механизм внимания, снижающий потребление памяти на длинных контекстах.
Контролируйте загрузку через nvidia-smi: если карта стабильно занята на 30–40%, вы платите за неиспользуемые ресурсы. Низкая утилизация — сигнал не докупать мощность, а оптимизировать пайплайн или взять карту меньше.
Безопасность и соответствие 152-ФЗ при работе с GPU-облаком
Персональные данные на GPU-сервере: что требует 152-ФЗ и ФСТЭК
Как только в обучающую выборку или на вход модели попадают персональные данные — лица на видео, клиентские профили, медицинские записи — включается 152-ФЗ. Закон требует, чтобы данные россиян хранились и обрабатывались на территории РФ, а информационная система соответствовала установленному уровню защищённости. Для облачного GPU это значит: ЦОД физически в России, а провайдер имеет аттестацию инфраструктуры по требованиям ФСТЭК под нужный уровень. Без этого обработка ПДн на арендованных мощностях формально неправомерна.
Критерии выбора провайдера: сертификации, SLA, изоляция, DDoS-защита
Для B2B-заказчика с чувствительными данными критерии выбора смещаются с цены на соответствие:
-
Сертификации и аттестации — ISO 27001, PCI DSS (если есть платёжные данные), аттестат соответствия 152-ФЗ, размещение в реестре российского ПО при необходимости.
-
Уровень ЦОД — Tier III даёт резервирование питания и охлаждения и заявленную доступность около 99,98%.
-
Изоляция ресурсов — выделенная карта или корректная vGPU-нарезка без соседей по памяти; для чувствительных задач предпочтительна полная изоляция.
-
SLA в процентах и компенсациях — не «высокая надёжность», а конкретные 99,9% и штрафные обязательства.
-
DDoS-защита и сетевая безопасность — особенно для инференс-эндпоинтов, смотрящих в интернет.
Здесь у российских провайдеров с собственными аттестованными ЦОД естественное преимущество перед зарубежными облаками, недоступными в правовом поле РФ.
Выбор конфигурации под этап зрелости: пилот, продакшн, масштаб
От пилота к продакшну: одна карта, выделенный сервер, managed-инфраструктура
Наращивать мощности логично постепенно, не покупая на старте кластер «на вырост»:
-
Пилот — одна арендованная карта (RTX 4090 или A100) с почасовой оплатой и готовым образом с CUDA, PyTorch и Jupyter. Проверяете гипотезу за недели, без капитальных вложений.
-
Продакшн — выделенный сервер с помесячной арендой, стабильный инференс-эндпоинт, объектное хранилище под данные, резервное копирование.
-
Масштаб — managed Kubernetes, автоматическое масштабирование под нагрузку, несколько карт.
На стадии пилота, когда покупать железо рано, а проверить идею нужно быстро, выручает аренда облачного GPU-сервера. Услуга закрывает ресурсоёмкие задачи — машинное обучение, рендеринг и транскодинг видео — на ускорителях NVIDIA (Tesla P100/M40/M60, RTX 4090) с поддержкой vGPU на терминальных серверах по RDP. Сервер берётся вместе с IaaS, оплата помесячная по факту потребления, без вложений в покупку оборудования — удобный способ дойти до продакшна, не замораживая капитал.
Когда одной карты мало: multi-GPU, NVLink и масштабирование кластера
Одна карта перестаёт справляться в двух случаях: модель не помещается в VRAM или поток запросов превышает пропускную способность. Первый решается объединением карт через NVLink — две A100 80 ГБ дают эффективные 160 ГБ под крупную модель. Второй — горизонтальным масштабированием: несколько серверов за балансировщиком, оркестрация через Kubernetes.
Важно трезво оценивать цену перехода. Multi-GPU — это не только удвоение стоимости карт, но и рост сложности: межкарточный обмен, настройка распределённого обучения, накладные расходы на синхронизацию. На двух картах вы почти никогда не получаете двукратное ускорение — реалистично 1,6–1,8x. Переходить к кластеру стоит тогда, когда одиночная карта с оптимизированным пайплайном достигла предела, а не превентивно.
Главные выводы
-
Считайте загрузку, а не цену за час. Порог окупаемости для A100 в нашем расчёте — около 315 часов в месяц: ниже выгоднее почасовая аренда, выше — собственный сервер. Под свой проект пересчитайте по той же логике.
-
VRAM решает. Сначала определите, сколько видеопамяти нужно модели в выбранном режиме, и только потом — какую карту брать. Квантизация и LoRA часто позволяют обойтись картой попроще.
-
Закладывайте скрытые статьи. Трафик, хранилище, простой и минимальные сроки добавляют к счёту заметную долю сверх тарифа за GPU.
-
Гибрид — рабочий компромисс. Базовую нагрузку держите на своём железе, пики выносите в облако с почасовой оплатой.
-
Комплаенс — не формальность. Если в работе участвуют персональные данные, аттестация ЦОД под 152-ФЗ и Tier III важнее разницы в несколько рублей за час.