AI‑инференс и большие данные: как российским компаниям подобрать оптимальное сочетание CPU, GPU и памяти
В условиях санкций и роста интереса к AI‑продуктам российские компании всё чаще пытаются “решить всё GPU” — закупают дорогие ускорители под задачи, которым достаточно CPU и большой памяти. В результате бюджет легко раздувается на 40% и выше, а часть GPU простаивает недогруженной. Эта статья помогает архитекторам и data‑science‑командам подобрать комбинацию CPU + GPU + DDR5‑памяти под онлайн‑инференс, пакетную аналитику и ETL, удержав трёхлетний TCO ниже примерно 1,6× от стоимости закупки.
Классифицируем нагрузки: инференс против больших данных
Базовая ошибка — пытаться обслуживать и LLM‑чат, и Spark‑ETL на одном и том же профиле “монструозного” GPU‑сервера. Гораздо эффективнее разделить нагрузки на три класса: онлайн‑инференс, пакетный AI‑инференс и большие данные (Spark/Hadoop/ETL) и уже под них подбирать CPU, GPU и память.
- Онлайн‑инференс: диалоги, рекомендации, визуальный скоринг с целевой задержкой <50 мс; здесь критичны TFLOPS и пропускная способность GPU‑памяти, поэтому выгодны специализированные ускорители NVIDIA с Tensor Cores и NVLink.
- Пакетный инференс и аналитика: периодический прогон больших батчей данных, где допустима более высокая задержка, но важна пропускная способность по данным; CPU и NVMe‑кеш могут частично заменить дорогое GPU.
- Большие данные и ETL: Spark, Hadoop, Dask, где узким местом чаще выступает объём и полоса памяти DDR5; здесь AMD EPYC выигрывает за счёт числа каналов и ёмкости, тогда как GPU используется точечно (например, RAPIDS) и далеко не для всех job‑ов.
Для каждого класса имеет смысл заранее считать бюджет FLOPS и пропускную способность памяти, ориентируясь на размер модели, batch size и целевую задержку. Малые модели до ~1 млрд параметров во многих случаях рационально держать на CPU‑инференсе, экономя дефицитные GPU‑слоты и энергию.
Онлайн‑инференс: когда решает GPU, а когда хватит CPU
Для LLM‑чатов, рекомендательных систем и real‑time компьютерного зрения требования по задержке и количеству запросов в секунду почти всегда выводят архитектуру на GPU‑акселераторы. GPUs благодаря высокой параллельности и пропускной способности HBM/GDDR‑памяти дают существенно лучшую производительность при инференсе, чем CPU, особенно на больших моделях.
| Сценарий | GPU‑конфигурация | CPU и память | NVMe‑слой | Нагрузка и бюджет |
|---|---|---|---|---|
| Онлайн‑чат, рекомендации | 4× NVIDIA A40 48 ГБ | 2× Xeon уровня 6338 (до 64 ядер суммарно), 1 ТБ Samsung DDR4/DDR5 ECC | 8×3,8 ТБ NVMe под кеш запросов и логи | LLM‑подобные модели 13B, чат‑боты и рекомендательные системы; бюджет ≈80–100 млн ₽ |
| Многоканальное визуальное распознавание | 2× NVIDIA H100 80 ГБ с NVLink | 2× AMD EPYC 9454 (до 96 ядер), 2 ТБ Micron DDR5 ECC | 12×7,6 ТБ NVMe для видеопотоков и фич | YOLO‑подобный inference с десятками потоков; бюджет ≈120 млн ₽ за узел |
| Периферийный/edge‑инференс | 1× NVIDIA L40S 48 ГБ | 1× Xeon 4410Y (≈20 ядер), 512 ГБ SK Hynix DDR5 ECC | 4×1,9 ТБ NVMe под ONNX‑модели и локальные данные | легковесные модели <7B параметров в ONNX; бюджет ≈50 млн ₽ |
В классах A100/H100 Tensor Cores дают максимальную производительность на крупных моделях, но их TCO и санкционные ограничения требуют очень аккуратного обоснования. Для среднего LLM‑инференса часто выгоднее использовать более доступные A40/L40S или несколько A100 вместо единичных H100, добиваясь загрузки ускорителей >70% по TFLOPS и соблюдая целевые 50 мс по задержке.
Получить расчёт конфигурации для AI‑инференса под ваши модели и задержкиБольшие данные и ETL: ставка на CPU и память
Spark, Hadoop и тяжёлые ETL‑пайплайны чаще всего упираются не во FLOPS, а в полосу и объём оперативной памяти и скорость NVMe. Современные AMD EPYC благодаря большему числу каналов DDR5 и ёмкости на сокет обеспечивают более высокую пропускную способность памяти, чем многие линейки Intel Xeon, что важно для in‑memory‑вычислений.
| Сценарий | CPU и GPU | Память DDR5 ECC | NVMe‑подсистема | Нагрузка и бюджет |
|---|---|---|---|---|
| Spark‑ETL на объёмах в десятки ТБ | 2× AMD EPYC 9654 (до 192 ядер) | до 4 ТБ SK Hynix DDR5 ECC по всем каналам | 16×15 ТБ NVMe под staging и кеш | очистка и агрегация многотерабайтных датасетов; бюджет ≈90 млн ₽ |
| Hadoop‑кластер / HDFS‑узел | 2× Xeon 8592+‑класса (до 128 ядер суммарно) + 2× A30 по необходимости | 2 ТБ Micron DDR5 ECC | до 24×7,6 ТБ NVMe + HDD‑полка | HDFS‑хранилище с возможностью GPU‑ускорения отдельных job‑ов; бюджет ≈70 млн ₽ |
| Фиче‑инжиниринг, Pandas/Dask | 2× EPYC 9374F + 1× RTX 6000‑класса | 1 ТБ Samsung DDR5 ECC | 8×3,8 ТБ NVMe под рабочие наборы | интерактивные ноутбуки, feature store; бюджет ≈60 млн ₽ |
Практика показывает, что для Spark‑нагрузок увеличение каналов DDR5 и оптимальная раскладка модулей по слотам дают больший прирост, чем дополнительные несколько десятков ядер CPU. В то же время GPU‑ускорение библиотеками RAPIDS и аналогами оправдано лишь там, где профилирование показывает кратный выигрыш по времени при приемлемом росте TCO.
Память и NVMe: Samsung, Micron или SK Hynix?
Для AI‑инференса и in‑memory‑аналитики DDR5‑память становится ключевым ресурсом: объём, задержки, поддержка ECC и доступность под санкциями напрямую влияют на стабильность и скорость. Крупные вендоры — Samsung, Micron и SK Hynix — предлагают разные типы ECC‑модулей (RDIMM, LRDIMM, 3DS), которые по‑разному подходят под тренинг, инференс и большие данные.
| Бренд и тип | Ёмкость и частота | Ключевые преимущества | Рекомендуемые сценарии | Оценочный ценовой диапазон |
|---|---|---|---|---|
| Samsung DDR5 ECC RDIMM | 128–256 ГБ @ до 5600 MT/s | низкая задержка, зрелые профили совместимости с Intel/NVIDIA | онлайн‑инференс, latency‑чувствительные сервисы | ориентировочно 50–80 тыс. ₽ за модуль в российских поставках |
| Micron DDR5 ECC LRDIMM | 256–512 ГБ @ около 4800 MT/s | высокая плотность и хорошая доступность; выгодна для больших моделей и in‑memory‑ETL | обучение и batch‑инференс крупных моделей, крупные Spark‑job‑ы | примерно 70–120 тыс. ₽ за модуль |
| SK Hynix DDR5 ECC 3DS | 512 ГБ+ @ до 5200 MT/s | очень высокая плотность, ориентирована на in‑memory‑аналитику | Spark/Hadoop‑кластеры с упором на память, крупные in‑memory кэши | примерно 100–150 тыс. ₽ за модуль |
В реальных проектах часто используется смешанная стратегия: Samsung для низколатентного инференса и фронтов, Micron для “тяжёлых” batch‑задач и обучения, SK Hynix — для узлов с максимальной ёмкостью памяти. Помимо этого NVMe‑слой строится на сериях, оптимизированных либо под чтение, либо под записи и смешанные профили, что особенно важно для логов и промежуточных данных ETL.
Типичные ошибки и расчёт TCO для смешанных нагрузок
В российских условиях часто встречаются либо “перегретые” конфигурации с избыточным количеством H100 под малые модели, либо кластеры ETL без ECC‑памяти и мониторинга, где единичный бит‑флип убивает часами считавшийся job. При этом электроэнергия и охлаждение легко превращают 3‑летний TCO в сумму, значительно превосходящую закупочную стоимость железа.
- Избыточный выбор H100 под малые модели: для моделей <7B параметров часто достаточно A40/L40S или CPU‑инференса, особенно если в приоритете стоимость и энергопотребление, а не рекордный throughput.
- Большие данные без ECC: отказ от ECC‑модулей в Spark/Hadoop‑узлах ради экономии приводит к трудноотлавливаемым ошибкам в данных; для корпоративной аналитики это неприемлемый риск.
- Игнор NVLink/NVSwitch: при нескольких GPU внутри узла пропускная способность шины становится критичной; меж‑GPU обмен по NVLink даёт кратный выигрыш против чистого PCIe, особенно для тензорного параллелизма.
| Сценарий | Закупка (млн ₽ на узел) | Энергия за 3 года (млн ₽) | Средняя утилизация | Оценочный ROI за 3 года |
|---|---|---|---|---|
| AI‑инференс (GPU‑центричный узел) | ≈100 | ≈30 при цене 2 ₽/кВт⋅ч и мощности до 2 кВт | ~80% | ≈2,1× при правильной загрузке и SLA |
| Большие данные (Spark/Hadoop‑узел) | ≈80 | ≈20 при меньшей плотности GPU | ~75% | ≈2,5× за счёт экономии на GPU и лучшей утилизации памяти |
FAQ: частые вопросы про выбор CPU, GPU и памяти
Ниже — типовые вопросы, которые российские компании задают при выборе железа под AI‑инференс и большие данные в условиях санкций и ограниченного бюджета.
Материал основан на внутренних проектах Elishtech и открытых источниках о серверных платформах AMD EPYC, Intel Xeon, NVIDIA GPU и DDR5‑памяти ведущих вендоров. Конкретные спецификации и наличие оборудования уточняются индивидуально под запрос.




