要約
Hessians of Neural Network(NN)には、NNの一般化能力を推定するために使用できるNN損失景観の曲率に関する重要な情報が含まれています。
以前に、ヘシアン固有値スペクトル密度(HESD)が幅広いクラスのNNSに対して同様に動作するという観察に依存する一般化基準を提案しました。
この論文は、さまざまなタイプのHESDをもたらす可能性のある要因を調査することにより、それらの適用性をさらに研究します。
HESDが主にNNトレーニングに正の固有値(MP-HESD)があり、異なる前処理と増強手順を備えたさまざまなデータセットでさまざまなオプティマイザーを使用して微調整されていることを示す幅広い実験を実施します。
また、主に陰性HESD(MN-HESD)が外部勾配操作の結果であり、以前に提案されていたヘシアン分析方法をそのような場合に適用できないことを示しています。
また、HESDタイプを決定し、NN一般化の可能性を推定するための基準と対応する条件を提案します。
これらのHESDタイプと以前に提案されていた一般化基準は、統合されたHESD分析方法論に結合されます。
最後に、トレーニング中にHESDがどのように変化するかについて説明し、準シングル(QS)HESDの発生と、提案された方法論と、ヘシアン固有値とNN損失の景観の曲がりとの関係に関する従来の仮定に対する影響を示します。
要約(オリジナル)
Hessians of neural network (NN) contain essential information about the curvature of NN loss landscapes which can be used to estimate NN generalization capabilities. We have previously proposed generalization criteria that rely on the observation that Hessian eigenvalue spectral density (HESD) behaves similarly for a wide class of NNs. This paper further studies their applicability by investigating factors that can result in different types of HESD. We conduct a wide range of experiments showing that HESD mainly has positive eigenvalues (MP-HESD) for NN training and fine-tuning with various optimizers on different datasets with different preprocessing and augmentation procedures. We also show that mainly negative HESD (MN-HESD) is a consequence of external gradient manipulation, indicating that the previously proposed Hessian analysis methodology cannot be applied in such cases. We also propose criteria and corresponding conditions to determine HESD type and estimate NN generalization potential. These HESD types and previously proposed generalization criteria are combined into a unified HESD analysis methodology. Finally, we discuss how HESD changes during training, and show the occurrence of quasi-singular (QS) HESD and its influence on the proposed methodology and on the conventional assumptions about the relation between Hessian eigenvalues and NN loss landscape curvature.
arxiv情報
著者 | Nikita Gabdullin |
発行日 | 2025-04-24 14:43:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google