Distributed Training of Large Graph Neural Networks with Variable Communication Rates

要約

大規模なグラフ上でグラフ ニューラル ネットワーク (GNN) をトレーニングすると、大規模なメモリとコンピューティング要件が発生するため、特有の課題が生じます。
グラフが複数のマシンに分割される分散 GNN トレーニングは、大規模なグラフで GNN をトレーニングする一般的なアプローチです。
ただし、グラフは通常、相互作用しない小さなコンポーネントに分解できないため、トレーニング マシン間のデータ通信によりトレーニング速度がすぐに制限されます。
通信されたノードのアクティベーションを固定量で圧縮すると、トレーニング速度は向上しますが、トレーニングされた GNN の精度は低下します。
本稿では、学習済みモデルの精度を損なうことなく、分散GNN学習における通信量を削減するための可変圧縮方式を紹介します。
理論的分析に基づいて、すべてのグラフ分割スキームに対して、完全な通信ケースと同等の解に収束する変数圧縮方法を導き出します。
私たちの経験的結果は、私たちの方法が完全な通信で得られるものと同等のパフォーマンスを達成することを示しています。
どのような通信予算でも、固定圧縮率での完全な通信よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Training Graph Neural Networks (GNNs) on large graphs presents unique challenges due to the large memory and computing requirements. Distributed GNN training, where the graph is partitioned across multiple machines, is a common approach to training GNNs on large graphs. However, as the graph cannot generally be decomposed into small non-interacting components, data communication between the training machines quickly limits training speeds. Compressing the communicated node activations by a fixed amount improves the training speeds, but lowers the accuracy of the trained GNN. In this paper, we introduce a variable compression scheme for reducing the communication volume in distributed GNN training without compromising the accuracy of the learned model. Based on our theoretical analysis, we derive a variable compression method that converges to a solution equivalent to the full communication case, for all graph partitioning schemes. Our empirical results show that our method attains a comparable performance to the one obtained with full communication. We outperform full communication at any fixed compression ratio for any communication budget.

arxiv情報

著者 Juan Cervino,Md Asadullah Turja,Hesham Mostafa,Nageen Himayat,Alejandro Ribeiro
発行日 2024-06-25 14:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク