要約
分類タスクのために過剰にパラメータ化されたディープ ネットワークをトレーニングすると、学習された特徴がいわゆる「神経崩壊」現象を示すことが広く観察されています。
より具体的には、最後から 2 番目のレイヤーの出力フィーチャの場合、クラスごとにクラス内のフィーチャが平均値に収束し、異なるクラスの平均値が特定のタイトなフレーム構造を示します。これは、最後のレイヤーの分類器とも一致します。
最後の層での特徴の正規化は、現代の表現学習の一般的な方法になるため、この作業では、正規化された特徴の神経崩壊現象を理論的に正当化します。
制約のない機能モデルに基づいて、球上のすべての機能と分類器を制約することにより、マルチクラス分類タスクの経験的損失関数をリーマン多様体上の非凸最適化問題に単純化します。
これに関連して、球の積に関するリーマン最適化問題の非凸ランドスケープを分析し、唯一のグローバル最小化因子がニューラル コラプス ソリューションであり、他のすべての臨界点が負の曲率を持つ厳密なサドルであるという意味で、良性のグローバル ランドスケープを示します。
実用的な深層ネットワークに関する実験結果は、私たちの理論を裏付けており、特徴の正規化によってより良い表現をより速く学習できることを示しています。
要約(オリジナル)
When training overparameterized deep networks for classification tasks, it has been widely observed that the learned features exhibit a so-called ‘neural collapse’ phenomenon. More specifically, for the output features of the penultimate layer, for each class the within-class features converge to their means, and the means of different classes exhibit a certain tight frame structure, which is also aligned with the last layer’s classifier. As feature normalization in the last layer becomes a common practice in modern representation learning, in this work we theoretically justify the neural collapse phenomenon for normalized features. Based on an unconstrained feature model, we simplify the empirical loss function in a multi-class classification task into a nonconvex optimization problem over the Riemannian manifold by constraining all features and classifiers over the sphere. In this context, we analyze the nonconvex landscape of the Riemannian optimization problem over the product of spheres, showing a benign global landscape in the sense that the only global minimizers are the neural collapse solutions while all other critical points are strict saddles with negative curvature. Experimental results on practical deep networks corroborate our theory and demonstrate that better representations can be learned faster via feature normalization.
arxiv情報
著者 | Can Yaras,Peng Wang,Zhihui Zhu,Laura Balzano,Qing Qu |
発行日 | 2022-09-19 17:26:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google