Distributed Graph Neural Network Training: A Survey

要約

グラフ ニューラル ネットワーク (GNN) は、グラフ上でトレーニングされる深層学習モデルの一種であり、さまざまなドメインで成功裏に適用されています。
GNN の有効性にもかかわらず、GNN を大きなグラフに効率的に拡張することは依然として困難です。
解決策として、分散コンピューティングは豊富なコンピューティング リソースを提供できるため、大規模な GNN をトレーニングするための有望なソリューションになります。
ただし、グラフ構造の依存性により、高効率の分散 GNN トレーニングの実現が困難になり、大規模な通信とワークロードの不均衡が発生します。
近年、分散 GNN トレーニングに関して多くの取り組みが行われ、一連のトレーニング アルゴリズムとシステムが提案されています。
しかし、GNN トレーニングの分散実行のための最適化手法に関する体系的なレビューは不足しています。
この調査では、分散 GNN トレーニングにおける 3 つの主要な課題、つまり大規模な機能の通信、モデルの精度の損失、およびワークロードの不均衡を分析します。
次に、上記の課題に対処する分散 GNN トレーニングの最適化手法の新しい分類法を導入します。
新しい分類法では、既存の技術が、GNN データ パーティション、GNN バッチ生成、GNN 実行モデル、および GNN 通信プロトコルの 4 つのカテゴリに分類されます。
各カテゴリーのテクニックについて丁寧に解説します。
最後に、マルチ GPU、GPU クラスター、CPU クラスターそれぞれに対する既存の分散 GNN システムを要約し、分散 GNN トレーニングの将来の方向性について説明します。

要約(オリジナル)

Graph neural networks (GNNs) are a type of deep learning models that are trained on graphs and have been successfully applied in various domains. Despite the effectiveness of GNNs, it is still challenging for GNNs to efficiently scale to large graphs. As a remedy, distributed computing becomes a promising solution of training large-scale GNNs, since it is able to provide abundant computing resources. However, the dependency of graph structure increases the difficulty of achieving high-efficiency distributed GNN training, which suffers from the massive communication and workload imbalance. In recent years, many efforts have been made on distributed GNN training, and an array of training algorithms and systems have been proposed. Yet, there is a lack of systematic review on the optimization techniques for the distributed execution of GNN training. In this survey, we analyze three major challenges in distributed GNN training that are massive feature communication, the loss of model accuracy and workload imbalance. Then we introduce a new taxonomy for the optimization techniques in distributed GNN training that address the above challenges. The new taxonomy classifies existing techniques into four categories that are GNN data partition, GNN batch generation, GNN execution model, and GNN communication protocol. We carefully discuss the techniques in each category. In the end, we summarize existing distributed GNN systems for multi-GPUs, GPU-clusters and CPU-clusters, respectively, and give a discussion about the future direction on distributed GNN training.

arxiv情報

著者 Yingxia Shao,Hongzheng Li,Xizhi Gu,Hongbo Yin,Yawen Li,Xupeng Miao,Wentao Zhang,Bin Cui,Lei Chen
発行日 2023-08-25 07:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.DC, cs.LG パーマリンク