Как выбрать сеть для AI‑кластера Supermicro: чем отличаются 25G, 100G, 200G и 400G
Когда в компании появляется первый AI‑сервер Supermicro с GPU, о сети обычно думают по остаточному принципу. Но как только вы переходите к кластеру, сеть внезапно становится «бутылочным горлышком».
Supermicro вместе с NVIDIA в своих решениях AI Factory и SuperCluster прямо показывают: для современных AI‑нагрузок базовый уровень — это 25G/100G Ethernet, а для крупных кластеров — уже 200G/400G fabric. Разберём, за что стоит платить.
Зачем думать о 25G/100G/200G/400G в AI‑кластере
Пока у вас один AI‑сервер Supermicro с парой GPU, 10G‑подключения часто хватает. Но ситуация резко меняется, когда вы добавляете ещё 2–3 узла для обучения и инференса, а данные лежат на общем all‑flash‑хранилище.
Ключевые факторы:
Постоянный обмен градиентами между GPU на разных узлах.
Вынос NVMe‑ресурсов за пределы серверов требует десятков GB/s.
Минимизация задержек при передаче данных напрямую в память.
Когда 25G достаточно, а 10G уже мало
25G Ethernet даёт 2,5× прирост полосы пропускания по сравнению с 10G при сопоставимой стоимости портов и кабелей. Это разумный минимум для серверов, которые станут частью 100G‑ядра.
25G хватает, если:
- • У вас 1–2 сервера для LLM‑ботов и RAG.
- • Датасеты лежат на локальных NVMe.
- • Нет регулярного распределённого обучения.
10G не подходит, если:
- • 3+ сервера работают с общим all-flash.
- • Планируется обучение распределённых моделей.
- • Используется NVMe-oF по Ethernet.
100G Ethernet — «золотая середина»
100G — это уровень, где кластер начинает работать как единая платформа. Это уже класс дата‑центров и AI‑фабрик.
Массовость
100G-оптика и коммутаторы стали стандартом, их проще достать.
Масштаб
Идеально для кластеров на 3–8 серверов (32–64 GPU).
Простота
Часто достаточно одной ступени коммутации без сложных схем.
Когда нужны 200G и 400G
Уровень SuperCluster
Оправдан для 8–16 серверов с активным обучением и NVMe‑oF. Используется как uplink между ToR и spine‑коммутаторами.
Территория AI‑фабрик
Для сотен GPU и десятков стоек. Оправдано для банков‑гигантов, телекома и суверенного AI. Пока избыточно для малого и среднего бизнеса.
Дерево решений
| Размер кластера | Тип нагрузки | Серверный линк | Uplink / Ядро |
|---|---|---|---|
| 1–2 сервера | LLM-боты, RAG, пилоты | 1×25G | 25/100G ToR |
| 3–8 серверов | Продовые сервисы, обучение | 2×25G / 1×100G | 100G ядро |
| 8–16 серверов | Активное обучение, NVMe-oF | 2×100G / 200G | 200/400G spine |
| 16+ узлов | SuperCluster, суверенный AI | 200/400G | 400G+ ядро |
Рекомендации на 3–5 лет
Для 80% компаний
Стартуйте с 25G и ToR‑коммутатора с поддержкой RDMA. При росте выше 4 узлов переходите на 100G‑ядро.
Для AI‑фабрик
Разносите AI‑fabric и корпоративную сеть физически. Оценивайте доступность 200/400G по параллельному импорту.
Выбирать скорость нужно не «по максимуму», а по размеру кластера и планам роста. Тогда каждая ступень будет осмысленным шагом.
Готовы обсудить ваш AI‑проект?
Пришлите нам ваши задачи, и мы подготовим расчет оптимальной AI‑инфраструктуры Supermicro для вашего ЦОДа.
Получить расчет



