PRES: Toward Scalable Memory-Based Dynamic Graph Neural Networks

要約

メモリベースのダイナミック グラフ ニューラル ネットワーク (MDGNN) は、メモリ モジュールを活用して長期的な時間依存関係を抽出、抽出、記憶するダイナミック グラフ ニューラル ネットワークのファミリーであり、メモリのないネットワークと比較して優れたパフォーマンスを実現します。
ただし、MDGNN のトレーニングでは、正確な時間パターンを捕捉するために、データ シーケンスの逐次的かつ時系列的な処理が必要な、時間的および構造的なもつれた依存関係を処理するという課題に直面しています。
バッチ トレーニング中、同じバッチ内の時間データ ポイントは並行して処理されますが、それらの時間依存関係は無視されます。
この問題は時間的不連続性と呼ばれ、有効な時間的バッチ サイズを制限し、データの並列処理を制限し、産業アプリケーションにおける MDGNN の柔軟性を低下させます。
この論文では、大規模な時間的バッチ サイズで MDGNN をトレーニングする際の時間的不連続性に焦点を当て、大規模な MDGNN の効率的なトレーニングについて研究します。
まず、MDGNN トレーニングの収束に対する一時的なバッチ サイズの影響について理論的研究を行います。
この分析に基づいて、時間的不連続性の影響を軽減するメモリ コヒーレンス学習目標と組み合わせた反復予測修正スキームである PRES を提案します。これにより、汎化パフォーマンスを犠牲にすることなく、大幅に大きな時間バッチで MDGNN をトレーニングできるようになります。
実験結果は、私たちのアプローチにより、MDGNN トレーニング中に最大 4 倍の時間的バッチ (3.4 倍の高速化) が可能になることを示しています。

要約(オリジナル)

Memory-based Dynamic Graph Neural Networks (MDGNNs) are a family of dynamic graph neural networks that leverage a memory module to extract, distill, and memorize long-term temporal dependencies, leading to superior performance compared to memory-less counterparts. However, training MDGNNs faces the challenge of handling entangled temporal and structural dependencies, requiring sequential and chronological processing of data sequences to capture accurate temporal patterns. During the batch training, the temporal data points within the same batch will be processed in parallel, while their temporal dependencies are neglected. This issue is referred to as temporal discontinuity and restricts the effective temporal batch size, limiting data parallelism and reducing MDGNNs’ flexibility in industrial applications. This paper studies the efficient training of MDGNNs at scale, focusing on the temporal discontinuity in training MDGNNs with large temporal batch sizes. We first conduct a theoretical study on the impact of temporal batch size on the convergence of MDGNN training. Based on the analysis, we propose PRES, an iterative prediction-correction scheme combined with a memory coherence learning objective to mitigate the effect of temporal discontinuity, enabling MDGNNs to be trained with significantly larger temporal batches without sacrificing generalization performance. Experimental results demonstrate that our approach enables up to a 4x larger temporal batch (3.4x speed-up) during MDGNN training.

arxiv情報

著者 Junwei Su,Difan Zou,Chuan Wu
発行日 2024-02-26 09:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク