Как выбрать сеть для AI‑кластера Supermicro: чем отличаются 25G, 100G, 200G и 400G и когда за них стоит платить

Dell PowerEdge R760 в 2026 году: полный обзор нового флагмана для российских дата-центров

Как выбрать сеть для AI‑кластера Supermicro: чем отличаются 25G, 100G, 200G и 400G

Когда в компании появляется первый AI‑сервер Supermicro с GPU, о сети обычно думают по остаточному принципу. Но как только вы переходите к кластеру, сеть внезапно становится «бутылочным горлышком».

Supermicro вместе с NVIDIA в своих решениях AI Factory и SuperCluster прямо показывают: для современных AI‑нагрузок базовый уровень — это 25G/100G Ethernet, а для крупных кластеров — уже 200G/400G fabric. Разберём, за что стоит платить.

Зачем думать о 25G/100G/200G/400G в AI‑кластере

Пока у вас один AI‑сервер Supermicro с парой GPU, 10G‑подключения часто хватает. Но ситуация резко меняется, когда вы добавляете ещё 2–3 узла для обучения и инференса, а данные лежат на общем all‑flash‑хранилище.

Ключевые факторы:

Распределённое обучение

Постоянный обмен градиентами между GPU на разных узлах.

NVMe-oF

Вынос NVMe‑ресурсов за пределы серверов требует десятков GB/s.

RDMA / RoCE

Минимизация задержек при передаче данных напрямую в память.

Когда 25G достаточно, а 10G уже мало

25G Ethernet даёт 2,5× прирост полосы пропускания по сравнению с 10G при сопоставимой стоимости портов и кабелей. Это разумный минимум для серверов, которые станут частью 100G‑ядра.

25G хватает, если:

  • • У вас 1–2 сервера для LLM‑ботов и RAG.
  • • Датасеты лежат на локальных NVMe.
  • • Нет регулярного распределённого обучения.

10G не подходит, если:

  • • 3+ сервера работают с общим all-flash.
  • • Планируется обучение распределённых моделей.
  • • Используется NVMe-oF по Ethernet.

100G Ethernet — «золотая середина»

100G — это уровень, где кластер начинает работать как единая платформа. Это уже класс дата‑центров и AI‑фабрик.

Массовость

100G-оптика и коммутаторы стали стандартом, их проще достать.

Масштаб

Идеально для кластеров на 3–8 серверов (32–64 GPU).

Простота

Часто достаточно одной ступени коммутации без сложных схем.

Когда нужны 200G и 400G

200G

Уровень SuperCluster

Оправдан для 8–16 серверов с активным обучением и NVMe‑oF. Используется как uplink между ToR и spine‑коммутаторами.

400G

Территория AI‑фабрик

Для сотен GPU и десятков стоек. Оправдано для банков‑гигантов, телекома и суверенного AI. Пока избыточно для малого и среднего бизнеса.

Дерево решений

Размер кластераТип нагрузкиСерверный линкUplink / Ядро
1–2 сервераLLM-боты, RAG, пилоты1×25G25/100G ToR
3–8 серверовПродовые сервисы, обучение2×25G / 1×100G100G ядро
8–16 серверовАктивное обучение, NVMe-oF2×100G / 200G200/400G spine
16+ узловSuperCluster, суверенный AI200/400G400G+ ядро

Рекомендации на 3–5 лет

Для 80% компаний

Стартуйте с 25G и ToR‑коммутатора с поддержкой RDMA. При росте выше 4 узлов переходите на 100G‑ядро.

Для AI‑фабрик

Разносите AI‑fabric и корпоративную сеть физически. Оценивайте доступность 200/400G по параллельному импорту.

Выбирать скорость нужно не «по максимуму», а по размеру кластера и планам роста. Тогда каждая ступень будет осмысленным шагом.

Готовы обсудить ваш AI‑проект?

Пришлите нам ваши задачи, и мы подготовим расчет оптимальной AI‑инфраструктуры Supermicro для вашего ЦОДа.

Получить расчет