要約
最新のディープ ニューラル ネットワークは、最終層の特徴と重みが単純な構造を示していることが観察されており、これは一般にニューラル崩壊と呼ばれます。
この現象は、深層神経崩壊として知られる、最後の層を超えた層でも観察されています。
最近の発見によると、このような構造は一般に、表現力豊かなネットワークの近似である深い制約のない特徴モデルでは最適ではありません。
これは、正則化によって引き起こされる低ランクのバイアスに起因しており、通常、深層神経崩壊に関連するソリューションよりも低ランクのソリューションが優先されます。
この研究では、これらの観察をクロスエントロピー損失に拡張し、低ランクのバイアスがさまざまなソリューションにどのように影響するかを分析します。
さらに、このバイアスが全体最適における重みの特異値に特定の構造をどのように誘発するかを調査します。
さらに、これらのモデルの損失曲面を調べ、最適ではないにもかかわらず、実際に深部神経崩壊が頻繁に観察されるのは、損失曲面でのより高度な縮退に起因する可能性があるという証拠を提供します。
要約(オリジナル)
Modern deep neural networks have been observed to exhibit a simple structure in their final layer features and weights, commonly referred to as neural collapse. This phenomenon has also been noted in layers beyond the final one, an extension known as deep neural collapse. Recent findings indicate that such a structure is generally not optimal in the deep unconstrained feature model, an approximation of an expressive network. This is attributed to a low-rank bias induced by regularization, which favors solutions with lower-rank than those typically associated with deep neural collapse. In this work, we extend these observations to the cross-entropy loss and analyze how the low-rank bias influences various solutions. Additionally, we explore how this bias induces specific structures in the singular values of the weights at global optima. Furthermore, we examine the loss surface of these models and provide evidence that the frequent observation of deep neural collapse in practice, despite its suboptimality, may result from its higher degeneracy on the loss surface.
arxiv情報
著者 | Connall Garrod,Jonathan P. Keating |
発行日 | 2024-10-30 16:20:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google