要約
大規模なグラフでのグラフ ニューラル ネットワーク (GNN) のトレーニングは、高いメモリ需要と限られた GPU メモリとの競合により困難です。
最近、この問題に取り組むために、分散フルグラフ GNN トレーニングが広く採用されています。
ただし、実質的な GPU 間通信のオーバーヘッドにより、スループットが大幅に低下する可能性があります。
既存の通信圧縮技術は主に従来の DNN トレーニングに焦点を当てており、そのボトルネックは勾配とパラメーターの同期にあります。
障壁は、フォワード パス中のフィーチャのレイヤー単位の通信と、バックワード パス中のフィーチャ グラディエントであるため、分散型 GNN トレーニングではうまく機能しないことがわかりました。
この目的のために、効率的な分散 GNN トレーニング フレームワーク Sylvie を提案します。これは、GNN で 1 ビット量子化手法を採用し、削減された通信を計算でさらにパイプライン化して、モデルの品質を維持しながらオーバーヘッドを大幅に縮小します。
詳細には、Sylvie は送信データを量子化し、受信データを各レイヤーで完全な精度の値に逆量子化するための軽量の低ビット モジュールを提供します。
さらに、Bounded Staleness Adapter を提案して、導入された古さを制御し、パフォーマンスをさらに向上させます。
Sylvie がトレーニング スループットを最大 28.1 倍に大幅に向上できることを実証するために、さまざまなモデルとデータセットに対して理論的な収束分析と広範な実験を実施します。
要約(オリジナル)
Training Graph Neural Networks (GNNs) on large graphs is challenging due to the conflict between the high memory demand and limited GPU memory. Recently, distributed full-graph GNN training has been widely adopted to tackle this problem. However, the substantial inter-GPU communication overhead can cause severe throughput degradation. Existing communication compression techniques mainly focus on traditional DNN training, whose bottleneck lies in synchronizing gradients and parameters. We find they do not work well in distributed GNN training as the barrier is the layer-wise communication of features during the forward pass & feature gradients during the backward pass. To this end, we propose an efficient distributed GNN training framework Sylvie, which employs one-bit quantization technique in GNNs and further pipelines the curtailed communication with computation to enormously shrink the overhead while maintaining the model quality. In detail, Sylvie provides a lightweight Low-bit Module to quantize the sent data and dequantize the received data back to full precision values in each layer. Additionally, we propose a Bounded Staleness Adaptor to control the introduced staleness to achieve further performance enhancement. We conduct theoretical convergence analysis and extensive experiments on various models & datasets to demonstrate Sylvie can considerably boost the training throughput by up to 28.1x.
arxiv情報
| 著者 | Meng Zhang,Qinghao Hu,Peng Sun,Yonggang Wen,Tianwei Zhang |
| 発行日 | 2023-03-02 14:02:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google