Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning

要約

このペーパーでは、高価なGPUを必要とせずに、MLワークロードパフォーマンスに対する実際のハードウェアネットワークの動作の影響を捉えるテストフレームワークであるGenieの基礎を築きます。
Genieは、ハードウェアテストベッド上のCPU開始トラフィックを使用してGPUをGPU通信にエミュレートし、Astra-SIMシミュレーターを適応させて、ネットワークとMLワークロード間の相互作用をモデル化します。

要約(オリジナル)

This paper lays the foundation for Genie, a testing framework that captures the impact of real hardware network behavior on ML workload performance, without requiring expensive GPUs. Genie uses CPU-initiated traffic over a hardware testbed to emulate GPU to GPU communication, and adapts the ASTRA-sim simulator to model interaction between the network and the ML workload.

arxiv情報

著者 Jinsun Yoo,ChonLam Lao,Lianjie Cao,Bob Lantz,Minlan Yu,Tushar Krishna,Puneet Sharma
発行日 2025-04-29 15:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.NI, cs.SY, eess.SY パーマリンク