要約
最近、分類問題のトレーニングの最終段階でニューラル ネットワークがニューラル コラプス (NC) を示すことが観察されました。
我々は、模倣学習やその他のアプリケーションで使用される多変量回帰が、ニューラル崩壊の新しい形式であるニューラル回帰崩壊 (NRC) を示すことを経験的に示します: (NRC1) 最後の層の特徴ベクトルは $n$ が広がる部分空間に崩壊します。
特徴ベクトルの主成分。$n$ はターゲットの次元です (単変量回帰の場合、$n=1$)。
(NRC2) 最終層の特徴ベクトルも、最終層の重みベクトルが広がる部分空間に折りたたまれます。
(NRC3) 重みベクトルのグラム行列は、ターゲットの共分散行列に依存する特定の関数形式に収束します。
さまざまなデータセットとネットワーク アーキテクチャに対する (NRC1) ~ (NRC3) の蔓延を経験的に確立した後、制約なし特徴モデル (UFM) のコンテキストで回帰タスクをモデル化することで、これらの現象の説明を提供します。
損失関数を最小化する場合、層特徴ベクトルは自由変数として扱われます。
UFM モデルの正則化パラメーターが厳密に正の場合、(NRC1) ~ (NRC3) も UFM 最適化問題の解として現れることを示します。
また、正則化パラメーターがゼロに等しい場合、崩壊は存在しないことも示します。
私たちの知る限り、これは回帰の文脈における神経虚脱に関する初めての実証的および理論的研究です。
この拡張は、ニューラル崩壊の適用可能性を新しいカテゴリの問題に広げるだけでなく、ニューラル崩壊の現象が深層学習における普遍的な動作である可能性があることを示唆するため、重要です。
要約(オリジナル)
Recently it has been observed that neural networks exhibit Neural Collapse (NC) during the final stage of training for the classification problem. We empirically show that multivariate regression, as employed in imitation learning and other applications, exhibits Neural Regression Collapse (NRC), a new form of neural collapse: (NRC1) The last-layer feature vectors collapse to the subspace spanned by the $n$ principal components of the feature vectors, where $n$ is the dimension of the targets (for univariate regression, $n=1$); (NRC2) The last-layer feature vectors also collapse to the subspace spanned by the last-layer weight vectors; (NRC3) The Gram matrix for the weight vectors converges to a specific functional form that depends on the covariance matrix of the targets. After empirically establishing the prevalence of (NRC1)-(NRC3) for a variety of datasets and network architectures, we provide an explanation of these phenomena by modeling the regression task in the context of the Unconstrained Feature Model (UFM), in which the last layer feature vectors are treated as free variables when minimizing the loss function. We show that when the regularization parameters in the UFM model are strictly positive, then (NRC1)-(NRC3) also emerge as solutions in the UFM optimization problem. We also show that if the regularization parameters are equal to zero, then there is no collapse. To our knowledge, this is the first empirical and theoretical study of neural collapse in the context of regression. This extension is significant not only because it broadens the applicability of neural collapse to a new category of problems but also because it suggests that the phenomena of neural collapse could be a universal behavior in deep learning.
arxiv情報
| 著者 | George Andriopoulos,Zixuan Dong,Li Guo,Zifan Zhao,Keith Ross |
| 発行日 | 2024-09-06 10:45:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google