FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation

要約

生成モデルは、さまざまなアプリケーションで顕著な成功を収めており、マルチGPUコンピューティングの需要を促進しています。
GPU間通信は、マルチGPUコンピューティングシステム、特に消費者グレードGPUのボトルネックになります。
同時のハードウェアの実行を活用することにより、計算と通信のレイテンシの重複は、通信オーバーヘッドを緩和するための効果的な手法です。
効率的で適応可能なオーバーラップ設計は、(1)タイルごとのオーバーラップを満たす必要があることを特定します。
それにもかかわらず、現在のデザインは、これらすべての機能に同時に最適化することができません。
この問題に対処するために、タイルごとのオーバーラップ、干渉のない計算、および通信不可知論を特徴とする軽量設計であるフラッシュオーバーラップを提案します。
FlashOverLapは、計算プロセスを中断することなくタイルごとのデータ依存関係を識別するための新しいシグナル伝達メカニズムを使用し、データを連続アドレスに再発行し、NCCL APIを呼び出すだけで通信を可能にします。
実験は、このような軽量設計が最大1.65倍のスピードアップを達成し、ほとんどの場合、既存の作品を上回ることを示しています。

要約(オリジナル)

Generative models have achieved remarkable success across various applications, driving the demand for multi-GPU computing. Inter-GPU communication becomes a bottleneck in multi-GPU computing systems, particularly on consumer-grade GPUs. By exploiting concurrent hardware execution, overlapping computation and communication latency is an effective technique for mitigating the communication overhead. We identify that an efficient and adaptable overlapping design should satisfy (1) tile-wise overlapping to maximize the overlapping opportunity, (2) interference-free computation to maintain the original computational performance, and (3) communication agnosticism to reduce the development burden against varying communication primitives. Nevertheless, current designs fail to simultaneously optimize for all of those features. To address the issue, we propose FlashOverlap, a lightweight design characterized by tile-wise overlapping, interference-free computation, and communication agnosticism. FlashOverlap utilizes a novel signaling mechanism to identify tile-wise data dependency without interrupting the computation process, and reorders data to contiguous addresses, enabling communication by simply calling NCCL APIs. Experiments show that such a lightweight design achieves up to 1.65x speedup, outperforming existing works in most cases.

arxiv情報

著者 Ke Hong,Xiuhong Li,Minxu Liu,Qiuli Mao,Tianqi Wu,Zixiao Huang,Lufang Chen,Zhong Wang,Yichong Zhang,Zhenhua Zhu,Guohao Dai,Yu Wang
発行日 2025-04-28 06:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク