H100 или рой средних GPU (L40S/L4) для LLM‑сервиса: решает не цена, а SLA по задержке, QPS и размер модели

Высоконагруженный LLM‑сервис в российских реалиях: продолжать строить на H100 или переходить к кластеру из L40S/L4?

Для многих российских компаний, запускающих LLM‑сервисы в собственных или арендованных ЦОДах, вопрос давно перестал звучать как «какой GPU мощнее». Ключевой выбор сегодня — оставить архитектуру на нескольких узлах с H100 или перейти к кластеру из более доступных карт уровня L40S и L4. И решается он не по цене видеокарты, а по трём параметрам: SLA по задержке, целевому QPS и размеру модели.

В этой статье предложен каркас решений для ИТ‑директоров, руководителей ЦОДов и системных интеграторов: как по трём осям зафиксировать свой сценарий, когда H100 остаётся «рабочей лошадью», а когда в условиях российских санкций и ограничений по мощности имеет смысл построить распределённый кластер из L40S/L4 на базе Alt Linux + Proxmox. Всё рассматривается в горизонте 3‑летнего TCO, а не только стартового CAPEX.

1. Точка старта: три вопроса, которые фиксируют ваш сценарий

Прежде чем обсуждать производительность и стоимость GPU, важно зафиксировать три параметра, которые критичны для бизнеса. Без честного ответа на них спор «H100 против L40S/L4» превращается в обмен мнениями, а не в архитектурное решение.

SLA по задержке: насколько «реальным» должен быть real‑time?

  • Строгий real‑time: p95 end‑to‑end меньше 300 мс. Сюда попадают высокочастотная торговля, внутриигровые реакции, голосовые ассистенты, где LLM участвует в критичном пути обработки.
  • Комфортный интерактив: 1–2 секунды до основного ответа. Типичные чат‑боты, RAG‑помощники, внутренние ассистенты, клиентские интерфейсы для сотрудников и партнёров.
  • Допустимая очередь: более 2 секунд, пакетная обработка. Это ночные отчёты, массовые суммирования, фоновые аналитические задачи, где время ответа измеряется секундами и минутами.

Целевой QPS: не только сегодня, но и через полгода

Имеет смысл фиксировать не только текущий QPS, но и ожидаемый рост и пики нагрузки, особенно если сервис будет выходить наружу или становиться частью ключевых процессов компании.

  • 10–50 QPS с редкими всплесками до 100 — пилотные проекты, ассистенты для ограниченного числа сотрудников, отдельные команды или филиалы.
  • 50–200 QPS с жёсткими требованиями к p95 — сервисные LLM‑продукты, внешние API, B2C‑сервисы, где стабильность важнее экстремального real‑time.
  • Более 200 QPS с заметными пиками — массовые пользовательские сценарии, интеграция LLM в высоконагруженные веб‑ и мобильные продукты, маркетинговые кампании.

Размер модели и контекста: сколько параметров и токенов вы реально используете?

  • Масштаб модели: 7B, 14B, 32B, 70B и выше. Для 7B–14B можно обойтись одной картой, 30B+ уже требуют серьёзного объёма памяти, а 70B+ чаще всего запускаются с тензорным параллелизмом по нескольким GPU.
  • Контекст: 4K, 8K, 32K, 128K. Для RAG, анализа документов, длинных отчётов и сложных инструкций потребление памяти растёт гораздо быстрее, чем линейно с увеличением длины контекста.

Ответив на эти три вопроса, можно уже грубо разделить сценарии: «строгий real‑time + высокая конкуррентность + крупная модель» — зона H100, «умеренный SLA + средние модели + масштабируемый QPS» — зона кластера из L40S/L4.

2. Где H100 объективно выигрывает: задержка и сквозная производительность

При типичных бенчмарках 2025 года одна карта H100 в формате SXM демонстрирует производительность на уровне десятков тысяч токенов в секунду для LLM‑инференса, что делает её базовым выбором для сочетания высокой конкуррентности и низкой задержки. L40S в тех же условиях показывает примерно половину этого уровня, что достаточно для «обычных» SLA, но хуже держит хвостовые задержки при пиковых нагрузках.

Сценарии, где логично продолжать делать ставку на H100

Параметр Когда H100 остаётся основой
SLA по задержке p95 менее 300–500 мс, жёсткий интерактив, где каждая сотня миллисекунд влияет на бизнес (торговля, игры, голос).
Целевой QPS Стабильно выше 50–100 QPS на один сервис с заметными пиками, когда важна не только средняя задержка, но и устойчивый хвост.
Размер модели 30B–70B+ с контекстом 8K–32K и более, когда без тензорного параллелизма по нескольким GPU не обойтись, а пропускная способность NVLink критична.
Инфраструктурный контекст У вас уже есть кластер на H100, инструменты мониторинга и оркестрации отлажены, утилизация GPU высока, а архитектура заточена под крупные модели.

Если ценностное предложение сервиса — это «максимально быстрая реакция крупной модели при высоком QPS», H100 остаётся технически оправданным решением, даже если единичная карта дороже. Вы фактически платите за гарантию хвостовой задержки и предсказуемость поведения на пиках.

3. Когда имеет смысл переходить с H100 на кластер из L40S/L4

Есть три типичных ситуации, в которых рационально хотя бы часть нагрузки перевести с H100 на кластер из средних карт. Во всех трёх случаях выигрывает не только CAPEX, но и эксплуатационная гибкость, особенно с учётом ограничений российских ЦОДов на мощность и охлаждение.

Случай 1. SLA по задержке не экстремальный, а QPS требуется «добрать» масштабированием

Типичный профиль: чат‑боты, RAG‑ассистенты, внутренние помощники, где пользователю комфортно получить ответ в течение 1–2 секунд, а не в сотни миллисекунд. Модели — в основном 7B–14B, иногда ансамбли вроде 8×7B Mixture‑of‑Experts, контекст чаще 4K–8K, а не 32K. Средний QPS — 20–100, без требований к «суб‑секундному» real‑time.

  • В такой конфигурации H100 большую часть времени недогружен: экстремальный запас по FLOPS и памяти оказывается избыточным, особенно в ночные и «провальные» часы нагрузки.
  • Кластер из L40S/L4 позволяет привязать пропускную способность к числу узлов: больше QPS — больше узлов; меньше QPS — часть узлов можно отключить или перевести в пониженный режим, экономя энергопотребление и аренду стоек.

Случай 2. Модели среднего размера, которым не нужна «тяжёлая артиллерия» H100

Если стратегический выбор компании — делать ставку на 7B/14B/32B‑модели, хорошо оптимизированные и/или дистиллированные под ваши данные, и в ближайшие годы не планируется переход к 70B+ собственным моделям, ключевые преимущества H100 (HBM, NVLink, FP8‑режим для крупного обучения) остаются невостребованными.

  • При контексте 4K–8K, аккуратном батчинге и оптимизациях (TensorRT‑LLM, KV‑кеш, vLLM) L40S/L4 способны обеспечивать комфортный p95 и достаточный QPS для большинства B2B‑сценариев.
  • Сложность от горизонтального масштабирования (оркестрация, мониторинг, health‑check) в такой архитектуре оказывается ниже, чем инженерные усилия по максимальному «выжиманию» H100 ради тех же моделей.

Случай 3. Бюджет и ограничения ЦОДа выходят на первый план

В российских дата‑центрах с лимитами 5–10 кВт на стойку и далеко не всегда идеальным охлаждением узел на 8×H100 превращается в «энерго‑монстра», который выедает весь потолок по мощности. Плюс, в условиях санкций H100 несут высокий CAPEX или арендную ставку, существенно влияя на 3‑летний TCO.

  • Узлы на L40S/L4 имеют более умеренный TDP, их легче «вписать» в существующие стойки и электрические вводы, не требуя радикальной модернизации ЦОДа.
  • Распределение узлов по нескольким стойкам и площадкам повышает отказоустойчивость: выход одного узла снижает QPS, но не приводит к падению сервиса.
  • Инвестиции становятся «пошаговыми»: можно добавлять один‑два узла по мере роста трафика, а не ждать отдельного бюджета на крупное расширение H100‑кластера.

4. Сводная таблица: H100 против кластера из L40S/L4 по трём осям

Ниже — упрощённая матрица, которая помогает «примерить» ваш профиль нагрузки к двум стратегиям: несколько высокоплотных узлов на H100 или распределённый кластер из L40S/L4 на Alt Linux + Proxmox.

Критерий В пользу узлов на H100 В пользу кластера L40S/L4
SLA по задержке (p95) Меньше 300–500 мс, жёсткий интерактив и требование near real‑time. 1–2 секунды и выше, пользователи готовы терпеть небольшие задержки.
Целевой QPS и пики нагрузки Стабильно >50–100 QPS при ярко выраженных пиках, требуется максимальная производительность на карту. 10–200 QPS, нагрузка хорошо масштабируется горизонтально и терпима к задержкам.
Размер модели и контекста 30B–70B+ с контекстом 8K–32K, требуется тензорный параллелизм и NVLink. 7B–14B/32B, контекст в основном 4K–8K, длинный контекст используется редко.
Тип нагрузки Критичный онлайн‑сервис с платным SLA и штрафами за деградацию. Мультиарендные B2B‑сервисы, внутренние ассистенты, сценарии с суточной сезонностью.
Ограничения ЦОДа Есть стойки высокой плотности, отдельный бюджет на энергопитание и холод. Стойки 5–10 кВт, нужно распределить нагрузку по шкафам и площадкам.
Финансовый фокус Готовность платить за экстремальную производительность и минимальный tail‑latency. Приоритет — стоимость токена и запроса, управляемый 3‑летний TCO в условиях санкций.
Запросить расчёт 3‑летнего TCO для H100 и L40S/L4 под мой SLA

5. Типичные ошибки и влияние на 3‑летний TCO

При выборе между H100 и средними картами многие компании допускают одни и те же ошибки. Они не всегда видны в момент закупки, но серьёзно бьют по совокупной стоимости владения на горизонте 3 лет, особенно в условиях российских санкций, когда любые изменения в поставках и лицензировании усиливают эффект неверных решений.

Ошибка Как проявляется Влияние на TCO (3 года)
Ориентация только на цену GPU Выбор «самой дешёвой» карты без учёта SLA по задержке, QPS и модели, игнорирование стоимости энергии и стойко‑места. Низкий CAPEX, но завышенный OPEX и непредсказуемые расходы из‑за перегрева, ограничений ЦОДа и доработок архитектуры.
Ставка на H100 для моделей 7B–14B Использование H100 под компактные модели с коротким контекстом, которые легко «живут» на средних картах. Переплата за неиспользуемый запас мощности, утилизация GPU ниже целевой, рост стоимости токена и запроса.
Игнорирование ограничений по мощности стойки Развёртывание нескольких узлов H100 в стойке 5–10 кВт без пересчёта электрических и охлаждающих ресурсов. Завышенные счета за электроэнергию, перегрев, вынужденные простои и дополнительные вложения в модернизацию ЦОДа.
Недоучёт архитектурных издержек при масштабировании L40S/L4 Переход к большому количеству узлов без продуманной маршрутизации, health‑check и auto‑scaling. Сложности с отказоустойчивостью, рост накладных расходов SRE‑команды, ухудшение SLA и репутационные риски.
Лицензионные риски и привязка к проприетарному стеку Фокус исключительно на GPU, игнорирование лицензионной политики зарубежных ОС и гипервизоров в условиях санкций. Риск роста затрат или невозможность продлить лицензии; решение — ставка на Alt Linux + Proxmox и открытый стек.

6. FAQ: как российским компаниям принимать решения о переходе с H100 на L40S/L4

1. Если сейчас у нас один узел на H100 и QPS небольшой, стоит ли вообще думать о L40S/L4?
Если текущий QPS не превышает 10–20 запросов в секунду, SLA по задержке мягкий (1–2 секунды), а модель — 7B–14B, то технической необходимости именно в H100 нет. Однако, если уже выполнены инвестиции в H100, логично сначала довести утилизацию до разумного уровня, параллельно готовя архитектуру под горизонтальное масштабирование на L40S/L4. Переход имеет смысл, когда вы планируете рост нагрузки и хотите контролируемый 3‑летний TCO в условиях российских санкций.
2. Не станет ли кластер из L40S/L4 слишком сложным в эксплуатации по сравнению с несколькими H100?
Управление десятками узлов действительно требует более зрелого подхода к мониторингу, логированию, развёртыванию и авто‑масштабированию. Но современные инструменты оркестрации и сервинга LLM позволяют скрыть эту сложность за стандартными практиками SRE. При правильной автоматизации эксплуатационные затраты на кластер из L40S/L4 становятся предсказуемыми, а гибкость и отказоустойчивость компенсируют дополнительную сложность.
3. Как понять, что мы «переросли» одну‑две карты H100 и пора переходить к гибридной архитектуре?
Признаки зрелости для гибридного подхода — устойчивый QPS выше 50–100, критичность SLA для части запросов и рост доли менее критичных задач (RAG, внутренние ассистенты, batch‑обработка). В такой конфигурации тяжёлые сценарии имеет смысл оставить на H100, а «массу» запросов и сервисов среднего приоритета перенести на кластер L40S/L4, отделив SLA и стоимость обслуживания по типам нагрузки.
4. Что даёт использование Alt Linux + Proxmox в такой архитектуре по сравнению с проприетарными стеками?
В условиях российских санкций зависимость от проприетарных ОС и гипервизоров создаёт дополнительные риски по лицензированию и поддержке. Переход на Alt Linux + Proxmox позволяет снизить правовую и финансовую неопределённость, более гибко строить инфраструктуру под кластеры H100 и L40S/L4 и прогнозировать 3‑летний TCO без страха внезапных изменений лицензионной политики иностранных поставщиков.
5. Как минимизировать риски при миграции части трафика с H100 на кластер L40S/L4?
Практичный путь — начать с A/B‑подхода: настроить маршрутизатор или API‑шлюз, который будет отправлять часть запросов (например, внутренние сценарии или менее критичные клиенты) на L40S/L4, сохраняя H100 в роли эталонного бэкенда. Пошаговое увеличение доли трафика на кластер, мониторинг SLA и стоимости токена/запроса позволят сформировать цифры для руководства и зафиксировать оптимальное соотношение H100 и L40S/L4 в производственной архитектуре.
Получить консультацию по выбору между H100 и кластером L40S/L4