Высоконагруженный LLM‑сервис в российских реалиях: продолжать строить на H100 или переходить к кластеру из L40S/L4?
Для многих российских компаний, запускающих LLM‑сервисы в собственных или арендованных ЦОДах, вопрос давно перестал звучать как «какой GPU мощнее». Ключевой выбор сегодня — оставить архитектуру на нескольких узлах с H100 или перейти к кластеру из более доступных карт уровня L40S и L4. И решается он не по цене видеокарты, а по трём параметрам: SLA по задержке, целевому QPS и размеру модели.
В этой статье предложен каркас решений для ИТ‑директоров, руководителей ЦОДов и системных интеграторов: как по трём осям зафиксировать свой сценарий, когда H100 остаётся «рабочей лошадью», а когда в условиях российских санкций и ограничений по мощности имеет смысл построить распределённый кластер из L40S/L4 на базе Alt Linux + Proxmox. Всё рассматривается в горизонте 3‑летнего TCO, а не только стартового CAPEX.
1. Точка старта: три вопроса, которые фиксируют ваш сценарий
Прежде чем обсуждать производительность и стоимость GPU, важно зафиксировать три параметра, которые критичны для бизнеса. Без честного ответа на них спор «H100 против L40S/L4» превращается в обмен мнениями, а не в архитектурное решение.
SLA по задержке: насколько «реальным» должен быть real‑time?
- Строгий real‑time: p95 end‑to‑end меньше 300 мс. Сюда попадают высокочастотная торговля, внутриигровые реакции, голосовые ассистенты, где LLM участвует в критичном пути обработки.
- Комфортный интерактив: 1–2 секунды до основного ответа. Типичные чат‑боты, RAG‑помощники, внутренние ассистенты, клиентские интерфейсы для сотрудников и партнёров.
- Допустимая очередь: более 2 секунд, пакетная обработка. Это ночные отчёты, массовые суммирования, фоновые аналитические задачи, где время ответа измеряется секундами и минутами.
Целевой QPS: не только сегодня, но и через полгода
Имеет смысл фиксировать не только текущий QPS, но и ожидаемый рост и пики нагрузки, особенно если сервис будет выходить наружу или становиться частью ключевых процессов компании.
- 10–50 QPS с редкими всплесками до 100 — пилотные проекты, ассистенты для ограниченного числа сотрудников, отдельные команды или филиалы.
- 50–200 QPS с жёсткими требованиями к p95 — сервисные LLM‑продукты, внешние API, B2C‑сервисы, где стабильность важнее экстремального real‑time.
- Более 200 QPS с заметными пиками — массовые пользовательские сценарии, интеграция LLM в высоконагруженные веб‑ и мобильные продукты, маркетинговые кампании.
Размер модели и контекста: сколько параметров и токенов вы реально используете?
- Масштаб модели: 7B, 14B, 32B, 70B и выше. Для 7B–14B можно обойтись одной картой, 30B+ уже требуют серьёзного объёма памяти, а 70B+ чаще всего запускаются с тензорным параллелизмом по нескольким GPU.
- Контекст: 4K, 8K, 32K, 128K. Для RAG, анализа документов, длинных отчётов и сложных инструкций потребление памяти растёт гораздо быстрее, чем линейно с увеличением длины контекста.
Ответив на эти три вопроса, можно уже грубо разделить сценарии: «строгий real‑time + высокая конкуррентность + крупная модель» — зона H100, «умеренный SLA + средние модели + масштабируемый QPS» — зона кластера из L40S/L4.
2. Где H100 объективно выигрывает: задержка и сквозная производительность
При типичных бенчмарках 2025 года одна карта H100 в формате SXM демонстрирует производительность на уровне десятков тысяч токенов в секунду для LLM‑инференса, что делает её базовым выбором для сочетания высокой конкуррентности и низкой задержки. L40S в тех же условиях показывает примерно половину этого уровня, что достаточно для «обычных» SLA, но хуже держит хвостовые задержки при пиковых нагрузках.
Сценарии, где логично продолжать делать ставку на H100
| Параметр | Когда H100 остаётся основой |
|---|---|
| SLA по задержке | p95 менее 300–500 мс, жёсткий интерактив, где каждая сотня миллисекунд влияет на бизнес (торговля, игры, голос). |
| Целевой QPS | Стабильно выше 50–100 QPS на один сервис с заметными пиками, когда важна не только средняя задержка, но и устойчивый хвост. |
| Размер модели | 30B–70B+ с контекстом 8K–32K и более, когда без тензорного параллелизма по нескольким GPU не обойтись, а пропускная способность NVLink критична. |
| Инфраструктурный контекст | У вас уже есть кластер на H100, инструменты мониторинга и оркестрации отлажены, утилизация GPU высока, а архитектура заточена под крупные модели. |
Если ценностное предложение сервиса — это «максимально быстрая реакция крупной модели при высоком QPS», H100 остаётся технически оправданным решением, даже если единичная карта дороже. Вы фактически платите за гарантию хвостовой задержки и предсказуемость поведения на пиках.
3. Когда имеет смысл переходить с H100 на кластер из L40S/L4
Есть три типичных ситуации, в которых рационально хотя бы часть нагрузки перевести с H100 на кластер из средних карт. Во всех трёх случаях выигрывает не только CAPEX, но и эксплуатационная гибкость, особенно с учётом ограничений российских ЦОДов на мощность и охлаждение.
Случай 1. SLA по задержке не экстремальный, а QPS требуется «добрать» масштабированием
Типичный профиль: чат‑боты, RAG‑ассистенты, внутренние помощники, где пользователю комфортно получить ответ в течение 1–2 секунд, а не в сотни миллисекунд. Модели — в основном 7B–14B, иногда ансамбли вроде 8×7B Mixture‑of‑Experts, контекст чаще 4K–8K, а не 32K. Средний QPS — 20–100, без требований к «суб‑секундному» real‑time.
- В такой конфигурации H100 большую часть времени недогружен: экстремальный запас по FLOPS и памяти оказывается избыточным, особенно в ночные и «провальные» часы нагрузки.
- Кластер из L40S/L4 позволяет привязать пропускную способность к числу узлов: больше QPS — больше узлов; меньше QPS — часть узлов можно отключить или перевести в пониженный режим, экономя энергопотребление и аренду стоек.
Случай 2. Модели среднего размера, которым не нужна «тяжёлая артиллерия» H100
Если стратегический выбор компании — делать ставку на 7B/14B/32B‑модели, хорошо оптимизированные и/или дистиллированные под ваши данные, и в ближайшие годы не планируется переход к 70B+ собственным моделям, ключевые преимущества H100 (HBM, NVLink, FP8‑режим для крупного обучения) остаются невостребованными.
- При контексте 4K–8K, аккуратном батчинге и оптимизациях (TensorRT‑LLM, KV‑кеш, vLLM) L40S/L4 способны обеспечивать комфортный p95 и достаточный QPS для большинства B2B‑сценариев.
- Сложность от горизонтального масштабирования (оркестрация, мониторинг, health‑check) в такой архитектуре оказывается ниже, чем инженерные усилия по максимальному «выжиманию» H100 ради тех же моделей.
Случай 3. Бюджет и ограничения ЦОДа выходят на первый план
В российских дата‑центрах с лимитами 5–10 кВт на стойку и далеко не всегда идеальным охлаждением узел на 8×H100 превращается в «энерго‑монстра», который выедает весь потолок по мощности. Плюс, в условиях санкций H100 несут высокий CAPEX или арендную ставку, существенно влияя на 3‑летний TCO.
- Узлы на L40S/L4 имеют более умеренный TDP, их легче «вписать» в существующие стойки и электрические вводы, не требуя радикальной модернизации ЦОДа.
- Распределение узлов по нескольким стойкам и площадкам повышает отказоустойчивость: выход одного узла снижает QPS, но не приводит к падению сервиса.
- Инвестиции становятся «пошаговыми»: можно добавлять один‑два узла по мере роста трафика, а не ждать отдельного бюджета на крупное расширение H100‑кластера.
4. Сводная таблица: H100 против кластера из L40S/L4 по трём осям
Ниже — упрощённая матрица, которая помогает «примерить» ваш профиль нагрузки к двум стратегиям: несколько высокоплотных узлов на H100 или распределённый кластер из L40S/L4 на Alt Linux + Proxmox.
| Критерий | В пользу узлов на H100 | В пользу кластера L40S/L4 |
|---|---|---|
| SLA по задержке (p95) | Меньше 300–500 мс, жёсткий интерактив и требование near real‑time. | 1–2 секунды и выше, пользователи готовы терпеть небольшие задержки. |
| Целевой QPS и пики нагрузки | Стабильно >50–100 QPS при ярко выраженных пиках, требуется максимальная производительность на карту. | 10–200 QPS, нагрузка хорошо масштабируется горизонтально и терпима к задержкам. |
| Размер модели и контекста | 30B–70B+ с контекстом 8K–32K, требуется тензорный параллелизм и NVLink. | 7B–14B/32B, контекст в основном 4K–8K, длинный контекст используется редко. |
| Тип нагрузки | Критичный онлайн‑сервис с платным SLA и штрафами за деградацию. | Мультиарендные B2B‑сервисы, внутренние ассистенты, сценарии с суточной сезонностью. |
| Ограничения ЦОДа | Есть стойки высокой плотности, отдельный бюджет на энергопитание и холод. | Стойки 5–10 кВт, нужно распределить нагрузку по шкафам и площадкам. |
| Финансовый фокус | Готовность платить за экстремальную производительность и минимальный tail‑latency. | Приоритет — стоимость токена и запроса, управляемый 3‑летний TCO в условиях санкций. |
5. Типичные ошибки и влияние на 3‑летний TCO
При выборе между H100 и средними картами многие компании допускают одни и те же ошибки. Они не всегда видны в момент закупки, но серьёзно бьют по совокупной стоимости владения на горизонте 3 лет, особенно в условиях российских санкций, когда любые изменения в поставках и лицензировании усиливают эффект неверных решений.
| Ошибка | Как проявляется | Влияние на TCO (3 года) |
|---|---|---|
| Ориентация только на цену GPU | Выбор «самой дешёвой» карты без учёта SLA по задержке, QPS и модели, игнорирование стоимости энергии и стойко‑места. | Низкий CAPEX, но завышенный OPEX и непредсказуемые расходы из‑за перегрева, ограничений ЦОДа и доработок архитектуры. |
| Ставка на H100 для моделей 7B–14B | Использование H100 под компактные модели с коротким контекстом, которые легко «живут» на средних картах. | Переплата за неиспользуемый запас мощности, утилизация GPU ниже целевой, рост стоимости токена и запроса. |
| Игнорирование ограничений по мощности стойки | Развёртывание нескольких узлов H100 в стойке 5–10 кВт без пересчёта электрических и охлаждающих ресурсов. | Завышенные счета за электроэнергию, перегрев, вынужденные простои и дополнительные вложения в модернизацию ЦОДа. |
| Недоучёт архитектурных издержек при масштабировании L40S/L4 | Переход к большому количеству узлов без продуманной маршрутизации, health‑check и auto‑scaling. | Сложности с отказоустойчивостью, рост накладных расходов SRE‑команды, ухудшение SLA и репутационные риски. |
| Лицензионные риски и привязка к проприетарному стеку | Фокус исключительно на GPU, игнорирование лицензионной политики зарубежных ОС и гипервизоров в условиях санкций. | Риск роста затрат или невозможность продлить лицензии; решение — ставка на Alt Linux + Proxmox и открытый стек. |




