要約
このペーパーでは、高価なGPUを必要とせずに、MLワークロードパフォーマンスに対する実際のハードウェアネットワークの動作の影響を捉えるテストフレームワークであるGenieの基礎を築きます。
Genieは、ハードウェアテストベッド上のCPU開始トラフィックを使用してGPUをGPU通信にエミュレートし、Astra-SIMシミュレーターを適応させて、ネットワークとMLワークロード間の相互作用をモデル化します。
要約(オリジナル)
This paper lays the foundation for Genie, a testing framework that captures the impact of real hardware network behavior on ML workload performance, without requiring expensive GPUs. Genie uses CPU-initiated traffic over a hardware testbed to emulate GPU to GPU communication, and adapts the ASTRA-sim simulator to model interaction between the network and the ML workload.
arxiv情報
著者 | Jinsun Yoo,ChonLam Lao,Lianjie Cao,Bob Lantz,Minlan Yu,Tushar Krishna,Puneet Sharma |
発行日 | 2025-04-29 15:23:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google