Supermicro GPU‑кластер или облачные GPU для обучения LLM: как принять решение по 3‑летнему TCO

Обучение LLM: Supermicro GPU‑кластер против облачных GPU — что выгоднее по 3‑летнему TCO?

Эта статья адресована техническим руководителям и архитекторам, которые планируют инфраструктуру для обучения моделей масштаба 7B и 70B и пытаются решить, стоит ли в ближайшие три года инвестировать в собственный Supermicro GPU‑кластер или продолжать арендовать облачные GPU.

Задача материала — дать понятный, основанный на числах ориентир: при каком масштабе моделей, профиле нагрузки и ограничениях российского рынка дешевле и безопаснее жить в облаке, а при каком — строить локальный кластер на Supermicro и смотреть на облако как на «эластичный буфер».

Какой выбор вы на самом деле делаете

В типичной компании с LLM‑инициативой на столе лежит компромисс: при ограниченном бюджете и жестком time‑to‑market нужно понять, когда достаточно облака, а когда оправдана покупка Supermicro‑кластера под 3–5 лет эксплуатации.

Сомнения обычно крутятся вокруг нескольких вопросов: нужны ли локальные GPU, если проекты в основном крутятся вокруг 7B/13B‑моделей; насколько «страшно» выглядит upfront‑инвестиция в железо по сравнению с почасовыми ставками облака; и как требования по локализации данных и санкционные риски меняют картину TCO.

7B‑модели: «средний стакан» на 4×GPU

Для моделей уровня Llama 2/3 7B FP16‑веса занимают порядка десятков гигабайт, а с учетом градиентов, состояний оптимизатора и активаций полная нагрузка на видеопамять выходит на уровень 40–60 GB, что укладывается в совокупный объём 4× A100/H100 80 GB с запасом.

  • Рекомендуемая конфигурация: 4× A100 80 GB или 4× H100 80 GB на одном сервере с использованием ZeRO или Fully Sharded Data Parallel для оптимального размещения состояний модели.
  • Серверный профиль: 2U/4U Supermicro GPU‑сервер с 4 двухслотовыми GPU, 2× Xeon или 2× EPYC (64+ ядер суммарно), 512 GB–1 TB DDR4/DDR5 и 8–12 NVMe в RAID0/10 под датасеты и checkpoint‑ы.

Когда 7B разумнее оставить в облаке

Если основной паттерн использования — нерегулярный fine‑tuning 7B/13B‑моделей «под запрос» с окнами обучения в считанные дни или недели и длинными периодами простоя, по 3‑летнему TCO облако выглядит выгоднее, потому что вы платите только за фактические GPU‑часы.

Такой режим нагрузки плохо загружает локальный кластер и не позволяет «досжечь» стоимость железа, в то время как облако даёт эластичность: легко поднять 4× A100‑инстанс на несколько дней и тут же его выключить, не думая о простое стойки.

70B‑класс: зона тяжёлого on‑prem

Для Llama 2/3 70B FP16‑веса выходят примерно на 140 GB, а с учетом оптимизатора и активаций совокупное потребление памяти переходит в несколько сотен гигабайт, что требует как минимум 8×GPU на узел и серьёзных объёмов системной памяти и NVMe.

  • Узел: 8× A100 80 GB или 8× H100 80 GB (NVLink/PCIe), 2 TB+ RAM, 16–24 NVMe‑диска под высокоскоростное хранилище и сеть уровня не ниже 200–400 Gbit/s на сервер.
  • Кластер: 2–4 таких узла в режимах data parallel + model parallel с тщательно настроенным All‑Reduce и схемой прогрева датасетов.

Когда 70B подталкивает к собственному кластеру

Если 70B‑модели используются эпизодически, аренда 8× A100/H100‑инстансов на время одного‑двух больших запусков в год пусть и ощутима, но остаётся контролируемой в рамках проектного бюджета и позволяет обойтись без капитальных вложений.

Однако при наличии нескольких команд и конвейера проектов, где 70B‑обучение идёт почти непрерывно и легко набирает десятки тысяч GPU‑часов в год, затраты на облако становятся сопоставимыми с покупкой собственного кластера, а затем начинают её заметно превышать.

Кейс: 3‑летний TCO узла 4×A100 on‑prem

Для ориентира рассмотрим узел с 4× A100 80 GB и сравним его 3‑летний TCO с эквивалентным облачным инстансом при средней загрузке около 70 %, опираясь на открытый TCO‑разбор для подобной конфигурации.

В этом анализе 3‑летний совокупный on‑prem‑TCO одного 4× A100‑узла с учетом оборудования, инфраструктуры ЦОД и операционных расходов составил около 246 624 долларов, в то время как облачный аналог при той же загрузке дал примерно 122 478 долларов.

Из чего складываются 246 624 $ on‑prem

Компонент on‑prem узла 4× A100 Оценочная стоимость (USD) Комментарий
GPU (4× A100 80 GB) ≈ 40 000 Основной CAPEX по видеокартам.
Корпус, CPU, RAM, NVMe и пр. ≈ 15 000 Серверная платформа и хранилище.
Сеть и коммутация (amort.) ≈ 5 000 Коммутаторы, кабели, базовый запас.
Инфраструктура ЦОД (3 года) ≈ 42 624 Стойка, питание, охлаждение и пр.
Операционные расходы (3 года) ≈ 144 000 Администрирование, поддержка, лицензии.
Итого 3‑летний TCO on‑prem ≈ 246 624 Оценка «с запасом» для верхней границы.

122 478 $: структура 3‑летнего TCO облачного 4×A100

Облачный эквивалент — инстанс с 4× A100 80 GB и около 1 TB хранилища — при 70 % средней загрузке за три года даёт приблизительно 122 478 долларов TCO, в основном за счёт почасовой оплаты GPU и относительно скромных затрат на дисковый объём.

Компонент облачной конфигурации Оценочная стоимость (USD, 3 года) Комментарий
GPU‑вычисления (4× A100) ≈ 120 678 Учтены 70 % средней загрузки за 3 года.
Хранение (1 TB) ≈ 1 800 Типовая ставка порядка 0,05 $/GB в месяц.
Итого 3‑летний TCO облака ≈ 122 478 Около 50 % от on‑prem в данном сценарии.

Главный вывод: TCO определяется загрузкой

При умеренной загрузке (порядка 50–70 %) облачный вариант оказывается дешевле почти вдвое, поскольку не требует капитальных вложений и берёт на себя часть операционных расходов, тогда как стоимость локального кластера остаётся фиксированной и амортизируется на меньшее число задач.

On‑prem‑кластеры начинают выигрывать у облака только при стабильно высокой загрузке — порядка 70–80 % и выше на протяжении нескольких лет, когда суммарная стоимость аренды в облаке становится сопоставимой или превышает цену железа и сопровождения.

Как это ложится на ваши 7B/70B‑сценарии

Сценарий Паттерн использования Вероятно выгоднее
7B/13B fine‑tuning, редкие запуски Несколько крупных обучений в год, значительные периоды простоя GPU Облачные GPU (оплата по мере использования)
70B‑обучение, несколько команд Почти постоянное использование 8×GPU‑узлов, тысячи часов в год Локальный Supermicro‑кластер (лучшее TCO при высокой загрузке)
Смешанная нагрузка 7B/70B Базовая постоянная нагрузка + пики под отдельные проекты Гибрид: базовый кластер Supermicro + облако как эластичный буфер

Российские реалии: санкции, данные и доступность GPU

В российских условиях решение «облако против собственного кластера» нельзя рассматривать только через призму денежного TCO: важную роль играют требования по локализации данных, отраслевые регуляции и риски санкций, влияющие на доступность зарубежных облаков и проприетарного ПО.

Для финансового сектора, онлайн‑сервисов с чувствительными пользовательскими данными и госзаказчиков локальный кластер на Supermicro с размещением в российском ЦОДе и стеком Alt Linux + Proxmox позволяет обеспечить контроль над данными и предсказуемую доступность вычислительных ресурсов на горизонте 3–5 лет.

Сильные стороны локального Supermicro‑кластера

  • Контроль над данными и соответствие требованиям регуляторов: физическое хранение в российском ЦОДе и прозрачность архитектуры облегчают аудиты и снижают юридические риски.
  • Предсказуемость производительности: отсутствие «шумных соседей», оптимизация сети и хранилища под конкретные LLM‑ворклоады, возможность повторно использовать один и тот же «золотой» профиль конфигурации для разных проектов.
  • Гибкая комплектуемость: платформы Supermicro позволяют свободно сочетать различные CPU, GPU и NVMe‑накопители, подстраивая конфигурацию под целевой бюджет и доступность компонентов в регионе.

Плюсы облака: без CAPEX, но с риском «раздувания» счетов

Облачные GPU привлекательны тем, что снимают необходимость в капитальных вложениях: достаточно создать аккаунт, выбрать инстанс с нужными GPU и оплатить первые часы, что особенно удобно на этапе R&D, когда модель, фреймворк и сами требования к железу ещё не зафиксированы.

При этом облачный TCO легко выходит за пределы планов, если инстансы не выключаются по окончании экспериментов или большие объёмы дисков и снапшотов висят месяцами, а периодические изменения цен и квот со стороны провайдера добавляют неопределённости в долгосрочные бюджеты.

Таблица быстрого решения: облако или Supermicro

Критерий Сигнал в пользу облака Сигнал в пользу Supermicro on‑prem
Масштаб моделей 7B/13B доминируют, 70B используются редко 70B+ присутствуют в большинстве проектов
Профиль нагрузки Несколько отдельных обучений в год, долгие простои Почти постоянное обучение, загрузка GPU > 70–80 %
Финансовая модель Предпочтение Opex, гибкие ежемесячные расходы Готовность инвестировать CAPEX ради 3‑летней предсказуемости
Локализация данных Данные можно размещать у облачного провайдера в разрешённом регионе Данные должны оставаться в российском ЦОДе по регуляторике
Команда и компетенции Нет собственной инфраструктурной команды, ставка на DevOps «в облаке» Есть операционная команда или готовность привлечь интегратора
Отношение к рискам санкций Допустимы ограничения по квотам и тарифам облака Критична 3–5‑летняя гарантированная доступность вычислительных ресурсов в России

Как использовать эту статью в своём проекте

Если команда только выходит на траекторию LLM и работает в основном с 7B/13B, разумнее стартовать в облаке, зафиксировать реальные GPU‑часы и стоимость по прошедшим проектам, а затем сравнить эти данные с ценой одного‑двух Supermicro‑узлов на горизонте трёх лет.

Если же уже сейчас понятно, что 70B‑обучения будут идти регулярно и станут основой продуктовой стратегии, имеет смысл спланировать кластер Supermicro под on‑prem‑размещение и рассматривать облако как вспомогательный ресурс для PoC и кратковременных пиковых нагрузок.