Staleness-Alleviated Distributed GNN Training via Online Dynamic-Embedding Prediction

要約

グラフ ニューラル ネットワーク (GNN) の最近の成功にもかかわらず、隣接爆発のため、大規模なグラフ上で GNN をトレーニングすることは依然として困難です。
解決策として、豊富なコンピューティング リソース (GPU など) を活用する分散コンピューティングが有望なソリューションになります。
ただし、グラフ データのノード依存性により、分散 GNN トレーニングで高い同時実行性を達成することが難しくなり、大量の通信オーバーヘッドが発生します。
これに対処するために、履歴値近似は分散トレーニング技術の有望なクラスとみなされます。
オフライン メモリを利用して、正確な値の手頃な近似値として履歴情報 (ノードの埋め込みなど) をキャッシュし、高い同時実行性を実現します。
ただし、このような利点には、古いトレーニング情報が含まれるという代償が伴い、情報の古さ、不正確さ、収束の問題が発生します。
これらの課題を克服するために、この論文では、埋め込みの古さを適応的に軽減する、新規でスケーラブルな分散 GNN トレーニング フレームワークである SAT (Staleness-Alleviated Training) を提案します。
SAT の重要なアイデアは、GNN のエンベディングの進化を時間グラフとしてモデル化し、それに基づいて将来のエンベディングを予測するモデルを構築することで、キャッシュされた過去のエンベディングの古さを効果的に軽減します。
埋め込み予測子と分散 GNN を交互にトレーニングし、さらに収束分析を提供するオンライン アルゴリズムを提案します。
我々は経験的に、SAT が埋め込みの古さを効果的に軽減し、複数の大規模なグラフ データセットでより優れたパフォーマンスと収束速度を達成できることを実証しています。

要約(オリジナル)

Despite the recent success of Graph Neural Networks (GNNs), it remains challenging to train GNNs on large-scale graphs due to neighbor explosions. As a remedy, distributed computing becomes a promising solution by leveraging abundant computing resources (e.g., GPU). However, the node dependency of graph data increases the difficulty of achieving high concurrency in distributed GNN training, which suffers from the massive communication overhead. To address it, Historical value approximation is deemed a promising class of distributed training techniques. It utilizes an offline memory to cache historical information (e.g., node embedding) as an affordable approximation of the exact value and achieves high concurrency. However, such benefits come at the cost of involving dated training information, leading to staleness, imprecision, and convergence issues. To overcome these challenges, this paper proposes SAT (Staleness-Alleviated Training), a novel and scalable distributed GNN training framework that reduces the embedding staleness adaptively. The key idea of SAT is to model the GNN’s embedding evolution as a temporal graph and build a model upon it to predict future embedding, which effectively alleviates the staleness of the cached historical embedding. We propose an online algorithm to train the embedding predictor and the distributed GNN alternatively and further provide a convergence analysis. Empirically, we demonstrate that SAT can effectively reduce embedding staleness and thus achieve better performance and convergence speed on multiple large-scale graph datasets.

arxiv情報

著者 Guangji Bai,Ziyang Yu,Zheng Chai,Yue Cheng,Liang Zhao
発行日 2023-08-25 16:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク