要約
この論文では、新しく改良された PyTorch ライブラリである Loss Landscape Analysis (LLA) を使用して、ニューラル ネットワーク (NN) の一般化機能を研究します。
LLA は、NN ヘシアンの特性とともに損失状況の視覚化と分析を容易にします。
NN 損失ランドスケープ プロットへのさまざまなアプローチについて、特に正規化手法に焦点を当てて説明します。NN アーキテクチャにバッチ正規化層が存在する場合、従来の方法では常に正しい視覚化を保証できないことを示します。
ヘッシアン軸を使用するとこの影響を軽減できることが示されており、ヘッシアン軸を選択する方法が提案されています。
さらに、ヘシアン固有分解のスペクトルが研究され、広範囲の NN に対して典型的なスペクトルが存在することが示されています。
これにより、NN のパフォーマンスを評価し、その汎化能力を評価するために適用できるヘシアン分析の定量的基準を提案できます。
一般化実験は、ImageNet-1K の事前トレーニング済みモデルと、この研究の一環としてトレーニングされたいくつかのモデルを使用して行われます。
実験には、1 つのデータセットでモデルをトレーニングし、別のデータセットでテストして、実験の野生環境でのモデルのパフォーマンスとの類似性を最大化することが含まれます。
データセットが変化すると、基準の変化が精度の変化と相関することが示されており、提案された基準は一般化能力の計算効率の高い推定となり、特に非常に大規模なデータセットに役立ちます。
要約(オリジナル)
This paper studies generalization capabilities of neural networks (NNs) using new and improved PyTorch library Loss Landscape Analysis (LLA). LLA facilitates visualization and analysis of loss landscapes along with the properties of NN Hessian. Different approaches to NN loss landscape plotting are discussed with particular focus on normalization techniques showing that conventional methods cannot always ensure correct visualization when batch normalization layers are present in NN architecture. The use of Hessian axes is shown to be able to mitigate this effect, and methods for choosing Hessian axes are proposed. In addition, spectra of Hessian eigendecomposition are studied and it is shown that typical spectra exist for a wide range of NNs. This allows to propose quantitative criteria for Hessian analysis that can be applied to evaluate NN performance and assess its generalization capabilities. Generalization experiments are conducted using ImageNet-1K pre-trained models along with several models trained as part of this study. The experiment include training models on one dataset and testing on another one to maximize experiment similarity to model performance in the Wild. It is shown that when datasets change, the changes in criteria correlate with the changes in accuracy, making the proposed criteria a computationally efficient estimate of generalization ability, which is especially useful for extremely large datasets.
arxiv情報
著者 | Nikita Gabdullin |
発行日 | 2024-12-13 14:02:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google