要約
ニューラル崩壊 (NC) とは、勾配降下トレーニングの最終段階におけるディープ ニューラル ネットワークの最後の層の驚くべき構造を指します。
最近、NC がニューラル ネットワークの初期の層に伝播することを示す実験的証拠が増えています。
ただし、最後の層の NC は理論的によく研究されていますが、その多層の対応物である深層神経崩壊 (DNC) についてはほとんど知られていません。
特に、既存の研究は線形層に焦点を当てているか、追加の仮定を犠牲にして最後の 2 つの層のみに焦点を当てています。
私たちの論文では、確立された NC の分析フレームワーク (制約なしの特徴モデル) を複数の非線形レイヤーに一般化することで、このギャップを埋めています。
私たちの主な技術的貢献は、深い制約のない特徴モデルにおいて、バイナリ分類のための独自の大域最適が DNC に典型的なすべての特性を示すことを示すことです。
これは、DNC の既存の実験証拠を説明しています。
また、(i) 勾配降下法によって深い制約のない特徴モデルを最適化することによって、結果として得られる解が私たちの理論とよく一致すること、(ii) 訓練されたネットワークが DNC の発生に適した制約のない特徴を回復することを経験的に示し、これにより、この理論の妥当性が裏付けられます。
モデリング原理。
要約(オリジナル)
Neural collapse (NC) refers to the surprising structure of the last layer of deep neural networks in the terminal phase of gradient descent training. Recently, an increasing amount of experimental evidence has pointed to the propagation of NC to earlier layers of neural networks. However, while the NC in the last layer is well studied theoretically, much less is known about its multi-layered counterpart – deep neural collapse (DNC). In particular, existing work focuses either on linear layers or only on the last two layers at the price of an extra assumption. Our paper fills this gap by generalizing the established analytical framework for NC – the unconstrained features model – to multiple non-linear layers. Our key technical contribution is to show that, in a deep unconstrained features model, the unique global optimum for binary classification exhibits all the properties typical of DNC. This explains the existing experimental evidence of DNC. We also empirically show that (i) by optimizing deep unconstrained features models via gradient descent, the resulting solution agrees well with our theory, and (ii) trained networks recover the unconstrained features suitable for the occurrence of DNC, thus supporting the validity of this modeling principle.
arxiv情報
著者 | Peter Súkeník,Marco Mondelli,Christoph Lampert |
発行日 | 2023-05-22 15:51:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google