Feature learning as alignment: a structural property of gradient descent in non-linear neural networks

要約

ニューラル ネットワークが特徴学習を通じて入力ラベルのペアから統計を抽出するメカニズムを理解することは、教師あり学習における最も重要な未解決問題の 1 つです。
以前の研究では、重みのグラム行列 (神経特徴行列、NFM) と平均勾配外積 (AGOP) が、神経特徴分析 (NFA) として知られるステートメントでトレーニング中に相関することが実証されました。
著者らは、NFA を通じて、神経特徴学習の一般的なメカニズムとして AGOP によるマッピングを導入しています。
しかし、これらの研究は、この相関関係やその起源について理論的な説明を提供していません。
この研究では、この相関関係の性質をさらに明らかにし、その出現を説明します。
この相関関係は、重み行列の左特異構造と各層で新しく定義された活性化前の接線特徴の間の位置合わせと同等であることを示します。
さらに、SGD によって引き起こされる重みの変化と事前活性化機能との相互作用によって位置合わせが駆動されることを確立し、その結果生じるダイナミクスを入力とラベルの単純な統計の観点から初期の時点で分析的に分析します。
最後に、NFA がこの中心相関によって駆動されるという観察に動機付けられて、任意の層で NFA 相関を劇的に増加させ、学習された特徴の品質を向上させる単純な最適化ルールを導入します。

要約(オリジナル)

Understanding the mechanisms through which neural networks extract statistics from input-label pairs through feature learning is one of the most important unsolved problems in supervised learning. Prior works demonstrated that the gram matrices of the weights (the neural feature matrices, NFM) and the average gradient outer products (AGOP) become correlated during training, in a statement known as the neural feature ansatz (NFA). Through the NFA, the authors introduce mapping with the AGOP as a general mechanism for neural feature learning. However, these works do not provide a theoretical explanation for this correlation or its origins. In this work, we further clarify the nature of this correlation, and explain its emergence. We show that this correlation is equivalent to alignment between the left singular structure of the weight matrices and the newly defined pre-activation tangent features at each layer. We further establish that the alignment is driven by the interaction of weight changes induced by SGD with the pre-activation features, and analyze the resulting dynamics analytically at early times in terms of simple statistics of the inputs and labels. Finally, motivated by the observation that the NFA is driven by this centered correlation, we introduce a simple optimization rule that dramatically increases the NFA correlations at any given layer and improves the quality of features learned.

arxiv情報

著者 Daniel Beaglehole,Ioannis Mitliagkas,Atish Agarwala
発行日 2024-06-24 15:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク