Are GATs Out of Balance?

要約

グラフ ニューラル ネットワーク (GNN) の表現力と計算能力は理論的に研究されていますが、その最適化と学習ダイナミクスは一般にほとんど解明されていないままです。
私たちの研究では、ノードの近傍集約がパラメータ化されたアテンション係数によって重み付けされる一般的な GNN アーキテクチャであるグラフ アテンション ネットワーク (GAT) を採用しています。
我々は、GAT 勾配流れ力学の保存則を導出します。これは、標準的な初期化を使用した GAT のパラメーターの大部分がトレーニング中に変更するのに苦労する理由を説明します。
この効果は深い GAT で増幅され、浅い GAT よりもパフォーマンスが大幅に低下します。
この問題を軽減するために、GAT ネットワークのバランスをとる初期化スキームを考案しました。
私たちのアプローチは、i) 勾配のより効果的な伝播を可能にし、その結果、より深いネットワークのトレーニング可能性を可能にし、ii) 標準の初期化と比較してトレーニングと収束時間の大幅な高速化を達成します。
私たちの主定理は、注意メカニズムを備えた正の同次モデルの学習ダイナミクスを研究するための足がかりとして機能します。

要約(オリジナル)

While the expressive power and computational capabilities of graph neural networks (GNNs) have been theoretically studied, their optimization and learning dynamics, in general, remain largely unexplored. Our study undertakes the Graph Attention Network (GAT), a popular GNN architecture in which a node’s neighborhood aggregation is weighted by parameterized attention coefficients. We derive a conservation law of GAT gradient flow dynamics, which explains why a high portion of parameters in GATs with standard initialization struggle to change during training. This effect is amplified in deeper GATs, which perform significantly worse than their shallow counterparts. To alleviate this problem, we devise an initialization scheme that balances the GAT network. Our approach i) allows more effective propagation of gradients and in turn enables trainability of deeper networks, and ii) attains a considerable speedup in training and convergence time in comparison to the standard initialization. Our main theorem serves as a stepping stone to studying the learning dynamics of positive homogeneous models with attention mechanisms.

arxiv情報

著者 Nimrah Mustafa,Aleksandar Bojchevski,Rebekka Burkholz
発行日 2023-10-25 15:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク