Добавить новость
smi24.net
News in English
Март
2024

The Elephant Flows Through the Data Center Network

0
GigaOM 

Techniques for optimizing data center networks to support AI workloads are not intuitive. You first need a baseline understanding of how AI workloads behave in the data center and how that’s different from non-AI or traditional workloads.

In this blog, we’ll explore how AI workloads behave in the data center and which networking features support this use case. We’ll start with some axiomatic one-liners, followed by more in-depth explanations of more complex processes—graphical processing unit (GPU) clustering, synchronicity, tolerance, subscription architectures, and knock-on effects. Lastly, we’ll describe features that data center switching solutions can offer to support organizations that are developing and deploying AI applications.

AI Traffic Patterns in Data Center Networks

The Basics

To form a baseline for understanding AI traffic patterns in data center networks, let’s consider the following postulates:

  • The most computationally intensive (and implicitly, network-heavy) phase of AI applications is the training phase. This is where data center network optimization must focus.
  • AI data centers are dedicated. You don’t run other applications on the same infrastructure.
  • During the training phase, all traffic is east-west.
  • Leaf-spine is still the most suitable architecture.

More Complex Processes

GPU Clustering
In most cases today, AI is trained on clusters of GPUs. This helps break up large data sets across GPU servers, each handling a subset. Once a cluster is finished processing a batch of data, it sends all the output in a single burst to the next cluster. These large bursts of data are dubbed “elephant flows,” which means that network utilization nears 100% when data is transmitted. These fabrics of GPU clusters connect to the network with very high bandwidth network interface controllers (NICs), ranging from 200 Gbps up to 800 Gbps.

Synchronicity
Asynchronous workloads are common in non-AI workloads, such as end-users making database queries or requests of a web server, and are fulfilled upon request. AI workloads are synchronous, which means that the clusters of GPUs must receive all the data before they can start their own job. Output from previous steps like gradients, model parameters, and so on become vital inputs to subsequent phases.

Low Tolerance
Given that GPUs require all data before starting their job, there is no acceptable tolerance for missing data or out-of-order packets. Packets are sometimes dropped, which causes added latency and higher utilization, and packets may arrive out of order as a result of using per-packet load balancing.

Oversubscription
For non-AI workloads, networks can be configured with a 2:1, 3:1, or 4:1, oversubscription tiers working on the assumption that not all connected devices communicate at maximum bandwidth all the time. For AI workloads, there’s a 1:1 ratio of each leaf’s capacity facing the servers and the spines, as we expect nearly 100% utilization.

Knock-On Effect
Latency, missing packets, or out-of-order packets have a huge knock-on effect on the overall job completion time; stalling one GPU will stall all the subsequent ones. This means that the slowest performing subtask dictates the performance of the whole system.

Networking Features that Support AI Workloads

General-purpose advice for supporting AI workloads includes focusing on end-to-end telemetry, higher port speeds, and the scalability of the system. While these are key components for supporting AI workloads, they are just as important for any type of workload.
To minimize tail latency and ensure network performance, data center switching solutions must support and develop new protocols and optimization mechanisms. Some of these include:

RoCE (RDMA Over Converged Ethernet) and Infiniband

Both technologies use remote direct memory access (RDMA), which provides memory-to-memory transfers without involving the processor, cache, or operating system of either network appliance. RoCE supports the RDMA protocol over Ethernet connections, while Infiniband uses a non-Ethernet based networking stack.

Congestion Management

Ethernet is a lossy protocol, by which packets are dropped when queues overflow. To prevent packets from dropping, data center networks can employ congestion management techniques such as:

  • Explicit congestion notification (ECN): a technique whereby routers indicate congestion by setting a label in packet headers when thresholds are crossed, rather than just dropping packets to proactively throttle sources before queues overflow and packet loss occurs.
  • Priority Flow Control (PFC): provides an enhancement to the Ethernet flow control pause command. The Ethernet Pause mechanism stops all traffic on a link, while PFC controls traffic only in one or several priority queues of an interface, rather than on the entire interface. PFC can pause or restart any queue without interrupting traffic in other queues.

Out-of-Order Packet Handling

Re-sequencing of packet buffers properly orders packets that arrive out of sequence before forwarding them to applications.

Load Balancing

We’ll need to compare different flavors of load balancing:

  • Equal cost multipath (ECMP): Routing uses a hash on flows, sending entire flows down one path, which will load-balance entire flows from the first packet to the last, rather than each individual packet. This can result in collisions and ingestion bottlenecks.
  • Per-packet ECMP: Per-packet mode hashes each individual packet across all available paths. Packets of the same flow may traverse multiple physical paths, which achieves better link utilization but can reorder packets.
  • Dynamic or adaptive load balancing: This technique inputs next-hop path quality as a consideration for pathing flows. It can adjust paths based on factors like link load, congestion, link failures, or other dynamic variables. It can change routing or switching decisions based on the current state and conditions of the network.

I recommend this whitepaper from the Ultra Ethernet Consortium as further reading on the topic.

Next Steps

Designing network architectures and features to cater to AI workloads is an emerging technology. While non-specialized networks are still suitable for AI workloads, optimizing the data center switching process will bring considerable returns on investment because more and larger AI deployments inevitably are on the way.

To learn more, take a look at GigaOm’s data center switching Key Criteria and Radar reports. These reports provide a comprehensive overview of the market, outline the criteria you’ll want to consider in a purchase decision, and evaluate how a number of vendors perform against those decision criteria.

If you’re not yet a GigaOm subscriber, you can access the research using a free trial.

The post The Elephant Flows Through the Data Center Network appeared first on Gigaom.








Домашний риф Dhawa Ihuru признан одним из лучших на Мальдивах

Коллекция Marc Jacobs осень-зима 2025/26

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Когда профессионализм равно безопасность: сеть клиник «Будь Здоров» оказала поддержку участникам «Суворовского трейла»


First confirmed death during Trump ICE raid is a farmworkers at a California cannabis facility

ICE is 'supercharging detention' with 'flagrantly unlawful' policy: lawyers

Dow futures sink as Trump keeps pushing tariffs while White House suggests Powell’s job could be at risk

Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”


ГК «АСНА» внедрила систему продвинутой аналитики «Дельта BI»

Дивеево

Каршеринг BelkaCar запустил новый сезон проекта «Умные путешествия»

В Курской области установился 3-й класс пожарной опасности


Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты

Those shadow giants in the distance in Elden Ring Nightreign are over 2 miles tall⁠—almost as big as the Erdtree⁠—and nobody even mentions them in the game

I've swapped modern live service games for a browser game that's been running since 2009

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля



«Искуситель», «Актриса» и «Пиковая дама»: топ 3 спектаклей сентября

Ольга Романив: как вести себя с мужчиной, который нравится

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки


«Турбозавры» поучаствовали в Дне московского транспорта

(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России


Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

В Видном арестовали мать мальчика, которого отчим избил битой

Эквадор передаст России гражданина, похитившего миллионы из Социального фонда

Ливень, гроза, град и ветер: москвичей предупредили о непогоде до утра вторника


Мирра Андреева вошла в топ-5 мирового рейтинга WTA.

Подмосковный теннисист стал призером юниорского Уимблдона

Синнер завоевал титул на Уимблдоне, победив Алькараса.

Кудерметова завоевала свой первый титул Уимблдона в парном разряде.


Франция предупредила о риске крупного конфликта в Европе к 2030 году

Эквадор передаст России гражданина, похитившего миллионы из Социального фонда

Γpуɜинcκий пοлитиκ: Βce ɜдpaвοмыcлящиe xοтят вepнутьcя в eдинοe пpοcтpaнcтвο c Ροccиeй

Эту одежду многие уже давно выкинули, а зря: топ-7 стильных в 2025 году вещей, которые и через 100 лет будут в моде


Музыкальные новости

«Выступать предпочитаю одна»: Анастасия Волочкова отказалась от дуэта с Натальей Штурм

Музыканты поделились чувствами после прощального концерта Оззи Осборна

Прокуратура попросила запретить песню группы «Порнофильмы» «Выключите гимн»

Сияющая Лорак и элегантный Баста: звезды на гала-концерте «Звезд Русского Радио» в Сочи


«Искуситель», «Актриса» и «Пиковая дама»: топ 3 спектаклей сентября

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Ольга Романив: как вести себя с мужчиной, который нравится


«Авито Спецтехника» поддержала команду «КАМАЗ-мастер» на ралли «Шелковый путь»

В НОВОМ ОТЧЕТЕ LG ОБ УСТОЙЧИВОМ РАЗВИТИИ ОТМЕЧЕН ПРОГРЕСС В ДОСТИЖЕНИИ ЭКОЛОГИЧЕСКИХ ЦЕЛЕЙ 2030 ГОДА

Премьерный показ сериала «Три сестры» с Ларисой Гузеевой прошел в Нижнем Новгороде

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству


Вскрытие без последствий – сервис «Спас-замков»

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье


В РФ раскрыли замысел Трампа после его попыток шантажировать Путина

В США сделали смелое заявление в отношении Путина.

"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

Посол Акира Муто: Япония будет приветствовать возможную встречу Путина и Трампа




Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Врач-трихолог Мадина Осман: как часто можно делать пересадку волос


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


«Спартак» продлил контракт с люксембургским футболистом Мартинсом

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

Травмированного на репетиции в цирке Москвы акробата выписали из больницы


Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.

«Нам в Минске надо учиться». Лукашенко похвалил Беглова за зимнюю уборку Петербурга

Лукашенко предложил Петербургу ремонтировать всю белорусскую технику

Петербургская делегация провела переговоры с президентом Беларуси в Минске


Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году

Собянин рассказал о предпрофессиональных каникулах для школьников

Сергей Собянин: роботы и электромашины на страже московских улиц

Сергей Собянин: Взяли курс на развитие высокотехнологичного сектора


Spark.ru - экосистема, объединяющая представителей бизнеса, экспертов и инвесторов

В НОВОМ ОТЧЕТЕ LG ОБ УСТОЙЧИВОМ РАЗВИТИИ ОТМЕЧЕН ПРОГРЕСС В ДОСТИЖЕНИИ ЭКОЛОГИЧЕСКИХ ЦЕЛЕЙ 2030 ГОДА

РЭО запускает акселератор для экологических центров на базе Плехановского университета

Платформа Spark.ru - полезное пространство для представителей малого и среднего бизнеса


«Турбозавры» поучаствовали в Дне московского транспорта

Многим рискует: юрист сказал, как сидит «золотой» экс-полковник Захарченко

В Видном арестовали мать мальчика, которого отчим избил битой

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты


В городе Барнауле стартовал третий этап смотра-конкурса на звание "Лучшее звено газодымозащитной службы" среди Главных управлений МЧС России

Защищённый планшет Saotron RT-W11J на базе ОС Windows10

Фестиваль духовых оркестров пройдет в трех городах Поморья по случаю Дня ВМФ

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса


Симферополь частично остался без света утром 14 июля

Феодосия получила 150 миллионов на ремонты дворов - где начнут работы

Под Симферополем горят десятки гектаров леса

Крыму и еще 24 регионам России спишут долги на миллиарды рублей


Фармацевт Орс назвал причины неприятного запаха пота

Слуцкий инициировал создание Дня ветерана труда

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

В Ельце введен режим угрозы атак беспилотников.














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *