GraphCC: A Practical Graph Learning-based Approach to Congestion Control in Datacenters

要約

輻輳制御 (CC) は、データセンター ネットワーク (DCN) のトラフィックを最適化する上で基本的な役割を果たします。
現在、DCN は主に DCTCP と DCQCN という 2 つの主要な CC プロトコルを実装しています。
どちらのプロトコルも、その主要な亜種も、明示的輻輳通知 (ECN) に基づいており、輻輳を検出すると中間スイッチがパケットにマークを付けます。
したがって、ECN 構成は CC プロトコルのパフォーマンスにとって重要な側面となります。
現在、ネットワークの専門家は、平均的なネットワーク パフォーマンスを最適化するために慎重に選択された静的 ECN パラメータを設定しています。
ただし、今日の高速 DCN は、ネットワーク状態を大きく変える急速かつ突然の変化 (動的トラフィ​​ック ワークロード、インキャスト イベント、障害など) を経験します。
これにより、使用率が低くなり、パフォーマンスが最適化されなくなります。
このペーパーでは、ネットワーク内 CC 最適化のための新しい機械学習ベースのフレームワークである GraphCC について説明します。
当社の分散ソリューションは、マルチエージェント強化学習 (MARL) とグラフ ニューラル ネットワーク (GNN) の新しい組み合わせに依存しており、広く導入されている ECN ベースの CC プロトコルと互換性があります。
GraphCC は、グローバル ECN 構成を連携して最適化するために隣接するスイッチと通信する分散エージェントをスイッチ上に展開します。
私たちの評価では、トレーニング中には見ら​​れなかった新しいシナリオ (新しいトラフィック ワークロード、障害、アップグレードなど) に適応するこのソリューションの機能に焦点を当て、さまざまなシナリオの下で GraphCC のパフォーマンスをテストします。
GraphCC を ECN チューニング用の最先端の MARL ベースのソリューション (ACC) と比較し、提案されたソリューションがすべての評価シナリオで最先端のベースラインを上回り、改善が見られることを観察しました。
フロー完了時間が $20\%$ に短縮され、バッファ占有率も大幅に削減されました ($38.0-85.7\%$)。

要約(オリジナル)

Congestion Control (CC) plays a fundamental role in optimizing traffic in Data Center Networks (DCN). Currently, DCNs mainly implement two main CC protocols: DCTCP and DCQCN. Both protocols — and their main variants — are based on Explicit Congestion Notification (ECN), where intermediate switches mark packets when they detect congestion. The ECN configuration is thus a crucial aspect on the performance of CC protocols. Nowadays, network experts set static ECN parameters carefully selected to optimize the average network performance. However, today’s high-speed DCNs experience quick and abrupt changes that severely change the network state (e.g., dynamic traffic workloads, incast events, failures). This leads to under-utilization and sub-optimal performance. This paper presents GraphCC, a novel Machine Learning-based framework for in-network CC optimization. Our distributed solution relies on a novel combination of Multi-agent Reinforcement Learning (MARL) and Graph Neural Networks (GNN), and it is compatible with widely deployed ECN-based CC protocols. GraphCC deploys distributed agents on switches that communicate with their neighbors to cooperate and optimize the global ECN configuration. In our evaluation, we test the performance of GraphCC under a wide variety of scenarios, focusing on the capability of this solution to adapt to new scenarios unseen during training (e.g., new traffic workloads, failures, upgrades). We compare GraphCC with a state-of-the-art MARL-based solution for ECN tuning — ACC — and observe that our proposed solution outperforms the state-of-the-art baseline in all of the evaluation scenarios, showing improvements up to $20\%$ in Flow Completion Time as well as significant reductions in buffer occupancy ($38.0-85.7\%$).

arxiv情報

著者 Guillermo Bernárdez,José Suárez-Varela,Xiang Shi,Shihan Xiao,Xiangle Cheng,Pere Barlet-Ros,Albert Cabellos-Aparicio
発行日 2023-08-09 12:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.NI パーマリンク