Initial Guessing Bias: How Untrained Networks Favor Some Classes

要約

ニューラル ネットワークの初期状態は、その後のトレーニング ダイナミクスを調整する上で中心的な役割を果たします。
分類問題のコンテキストでは、トレーニングの開始前であっても、明示的なバイアスがない場合であっても、ニューラル ネットワークの構造によってモデルがすべての予測を同じクラスに割り当てることができることを実証する理論的分析を提供します。
「初期推測バイアス」(IGB) と呼ばれるこの現象の存在は、アクティベーション関数、最大プーリング層、ネットワークの深さなどのアーキテクチャ上の選択に依存することを示します。
IGB の分析は、アーキテクチャの選択と初期化をガイドするという点で、実際的な結果をもたらします。
また、ノード順列対称性の破れ、自己平均化の違反、一部の平均場近似の妥当性、深さによって生じる自明ではない差異などの理論的結果も強調します。

要約(オリジナル)

The initial state of neural networks plays a central role in conditioning the subsequent training dynamics. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a neural network can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We show that the presence of this phenomenon, which we call ‘Initial Guessing Bias’ (IGB), depends on architectural choices such as activation functions, max-pooling layers, and network depth. Our analysis of IGB has practical consequences, in that it guides architecture selection and initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging, the validity of some mean-field approximations, and the non-trivial differences arising with depth.

arxiv情報

著者 Emanuele Francazi,Aurelien Lucchi,Marco Baity-Jesi
発行日 2023-11-01 16:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク