要約
この記事では、ReLU アクティベーションを使用した有限幅グラフ ニューラル ネットワーク (GNN) の初期化とアーキテクチャの選択に関する 3 つの原則を導き出し、検証します。
まず、よく知られている He 初期化の ReLU GNN に対する固有の一般化が本質的に何であるかを理論的に導き出します。
私たちの初期化スキームは、ネットワーク出力と勾配の平均スケールが初期化時に次数 1 のままであることを保証します。
次に、有限幅のバニラ ReLU GNN で、初期化に関係なく、固定集計演算子を使用する場合、深い深さでは過度の平滑化が避けられないことを証明します。
次に、固定集計演算子を恒等式で補間することによって得られる残差集計演算子を使用すると、初期化時の過度の平滑化が軽減されることを証明します。
最後に、修正タイプの初期化で残差接続を使用する一般的な方法により、初期化時の最終層の特徴における相関崩壊が明らかに回避されることを示します。
アブレーション研究を通じて、フォワード パスで正しい初期化、残差集計演算子、残差接続を使用すると、さまざまなタスクにおける深い ReLU GNN の初期トレーニング ダイナミクスが大幅かつ確実に高速化されることがわかりました。
要約(オリジナル)
This article derives and validates three principles for initialization and architecture selection in finite width graph neural networks (GNNs) with ReLU activations. First, we theoretically derive what is essentially the unique generalization to ReLU GNNs of the well-known He-initialization. Our initialization scheme guarantees that the average scale of network outputs and gradients remains order one at initialization. Second, we prove in finite width vanilla ReLU GNNs that oversmoothing is unavoidable at large depth when using fixed aggregation operator, regardless of initialization. We then prove that using residual aggregation operators, obtained by interpolating a fixed aggregation operator with the identity, provably alleviates oversmoothing at initialization. Finally, we show that the common practice of using residual connections with a fixup-type initialization provably avoids correlation collapse in final layer features at initialization. Through ablation studies we find that using the correct initialization, residual aggregation operators, and residual connections in the forward pass significantly and reliably speeds up early training dynamics in deep ReLU GNNs on a variety of tasks.
arxiv情報
著者 | Gage DeZoort,Boris Hanin |
発行日 | 2023-06-20 16:40:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google