要約
Sharpness-aware Minimization (SAM) は、ニューラル ネットワークのトレーニング損失の鋭さを最小限に抑える最近提案された手法です。
一般化の改善はよく知られており、主な動機ですが、SAM のさらなる興味深い効果、つまりニューラル ネットワークのさまざまな層で発生する特徴ランクの低下を明らかにします。
我々は、この低ランク効果が、完全接続ネットワーク、畳み込みネットワーク、ビジョントランスフォーマーなどのさまざまなアーキテクチャや、回帰、分類、言語と画像の対比トレーニングなどのさまざまな目的で非常に広範囲に発生することを示します。
この現象をより深く理解するために、単純な 2 層ネットワークで低ランクの機能がどのように発生するかを機構的に理解します。
かなりの数のアクティベーションが SAM によって完全に除去され、ランクの低下に直接寄与していることがわかります。
我々はこの効果を理論的に確認し、深いネットワークでも発生する可能性があることを確認しました。ただし、全体的なランク削減メカニズムは、特に事前アクティブ化スキップ接続とセルフアテンション層を備えた深いネットワークではより複雑になる可能性があります。
コードは https://github.com/tml-epfl/sam-low-rank-features で公開しています。
要約(オリジナル)
Sharpness-aware minimization (SAM) is a recently proposed method that minimizes the sharpness of the training loss of a neural network. While its generalization improvement is well-known and is the primary motivation, we uncover an additional intriguing effect of SAM: reduction of the feature rank which happens at different layers of a neural network. We show that this low-rank effect occurs very broadly: for different architectures such as fully-connected networks, convolutional networks, vision transformers and for different objectives such as regression, classification, language-image contrastive training. To better understand this phenomenon, we provide a mechanistic understanding of how low-rank features arise in a simple two-layer network. We observe that a significant number of activations gets entirely pruned by SAM which directly contributes to the rank reduction. We confirm this effect theoretically and check that it can also occur in deep networks, although the overall rank reduction mechanism can be more complex, especially for deep networks with pre-activation skip connections and self-attention layers. We make our code available at https://github.com/tml-epfl/sam-low-rank-features.
arxiv情報
著者 | Maksym Andriushchenko,Dara Bahri,Hossein Mobahi,Nicolas Flammarion |
発行日 | 2023-05-25 17:46:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google