Towards Quantifying the Hessian Structure of Neural Networks

要約

実証研究は、ニューラルネットワークのヘシアンマトリックス(NNS)が遮断に近い構造を示すことを報告しましたが、その理論的基盤は不明のままです。
この作業では、ヘシアン構造を形成する2つの力を明らかにします。アーキテクチャデザインに根ざした「静的力」と、トレーニングから生じた「ダイナミックフォース」です。
次に、ランダムな初期化で「静的力」の厳密な理論分析を提供します。
分類タスクの平均二乗(MSE)損失とクロスエントロピー(CE)損失を備えた線形モデルと1ハイダード層ネットワークを研究します。
ランダムマトリックス理論を活用することにより、対角線および対角のヘシアンブロックの限界分布を比較し、ブロック対角構造が$ c \ rightarrow \ infty $として生じることを発見します。$ c $はクラスの数を示します。
私たちの調査結果は、$ c $がブロック角近視構造の主要なドライバーであることを明らかにしています。
これらの結果は、大規模な$ 10^4 $または$ 10^5 $を超える大きな$ c $で動作する大規模な言語モデル(LLMS)のヘシアン構造に新たな光を当てる可能性があります。

要約(オリジナル)

Empirical studies reported that the Hessian matrix of neural networks (NNs) exhibits a near-block-diagonal structure, yet its theoretical foundation remains unclear. In this work, we reveal two forces that shape the Hessian structure: a “static force” rooted in the architecture design, and a “dynamic force” arisen from training. We then provide a rigorous theoretical analysis of “static force” at random initialization. We study linear models and 1-hidden-layer networks with the mean-square (MSE) loss and the Cross-Entropy (CE) loss for classification tasks. By leveraging random matrix theory, we compare the limit distributions of the diagonal and off-diagonal Hessian blocks and find that the block-diagonal structure arises as $C \rightarrow \infty$, where $C$ denotes the number of classes. Our findings reveal that $C$ is a primary driver of the near-block-diagonal structure. These results may shed new light on the Hessian structure of large language models (LLMs), which typically operate with a large $C$ exceeding $10^4$ or $10^5$.

arxiv情報

著者 Zhaorui Dong,Yushun Zhang,Zhi-Quan Luo,Jianfeng Yao,Ruoyu Sun
発行日 2025-05-05 17:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク