要約
ランダム ニューラル ネットワークの無限幅制限により、タスク独立カーネルを特徴とするガウス過程としてのニューラル ネットワーク (NNGP) (Lee et al. [2018]) が生じることが知られています。
ネットワーク幅が大きいほど一般化の向上に寄与することは広く受け入れられています (Park et al. [2019])。
しかし、この研究では、残差ネットワークに似たアーキテクチャであるベイジアン並列分岐グラフ ニューラル ネットワーク (BPB-GNN) の狭い幅制限を調査することで、この概念に疑問を投げかけています。
BPB-GNN の幅がトレーニング例の数に比べて大幅に小さい場合、カーネル繰り込みにおける分岐の対称性の破れにより、各分岐がより堅牢な学習を示すことを示します。
驚くべきことに、狭い幅制限での BPB-GNN のパフォーマンスは、一般に、バイアスが制限されたシナリオで広い幅制限で達成されるパフォーマンスよりも優れているか、同等です。
さらに、狭い幅制限内の各ブランチの読み出しノルムは、アーキテクチャ上のハイパーパラメータからほとんど独立していますが、一般にデータの性質を反映しています。
私たちの結果は、一般に並列分岐ネットワークに対して新しく定義された狭幅領域を特徴づけます。
要約(オリジナル)
The infinite width limit of random neural networks is known to result in Neural Networks as Gaussian Process (NNGP) (Lee et al. [2018]), characterized by task-independent kernels. It is widely accepted that larger network widths contribute to improved generalization (Park et al. [2019]). However, this work challenges this notion by investigating the narrow width limit of the Bayesian Parallel Branching Graph Neural Network (BPB-GNN), an architecture that resembles residual networks. We demonstrate that when the width of a BPB-GNN is significantly smaller compared to the number of training examples, each branch exhibits more robust learning due to a symmetry breaking of branches in kernel renormalization. Surprisingly, the performance of a BPB-GNN in the narrow width limit is generally superior or comparable to that achieved in the wide width limit in bias-limited scenarios. Furthermore, the readout norms of each branch in the narrow width limit are mostly independent of the architectural hyperparameters but generally reflective of the nature of the data. Our results characterize a newly defined narrow-width regime for parallel branching networks in general.
arxiv情報
著者 | Zechen Zhang,Haim Sompolinsky |
発行日 | 2024-07-26 15:14:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google