An Improved Empirical Fisher Approximation for Natural Gradient Descent

要約

近似自然勾配降下法 (NGD) 法は、深層学習モデルの重要なオプティマイザーのファミリーであり、トレーニング中に近似フィッシャー情報行列を使用して勾配を事前調整します。
経験的フィッシャー (EF) 法は、逆伝播中に収集されたサンプルごとの勾配を再利用することにより、経験的にフィッシャー情報行列を近似します。
EF 近似は実装が容易であるにもかかわらず、理論的および実際的な制限があります。
この論文では、最初に、経験的近似の品質が低下する主な原因であることが示されている、EF の逆スケール射影の問題を調査します。
損失削減の観点から一般化された NGD 手法として動機づけられた改良された経験的フィッシャー (iEF) 手法は、EF の実用的な利便性を維持しながら、この問題に対処するために提案されています。
正確な iEF および EF メソッドは、事前トレーニング済みモデルのパラメーター効率の高い微調整に広く使用されているセットアップ (LoRA を使用した T5 ベースと GLUE タスクのプロンプトチューニング、および LoRA を使用した ViT) を含む、実用的な深層学習セットアップを使用して実験的に評価されます。
CIFAR100用)。
最適化実験では、オプティマイザーとして正確な iEF を適用すると、強力な収束と一般化が実現されることが示されています。
適切に調整された AdamW/Adafactor ベースラインと比較した場合でも、ほとんどのタスクで最高のテスト パフォーマンスと最低のトレーニング損失を実現します。
さらに、新しい経験的評価フレームワークの下で、提案された iEF 手法は、正確な自然勾配更新に対して、EF およびより高価なサンプリングされたフィッシャー (SF) の両方よりも一貫して優れた近似品質を示します。
さらなる調査により、iEF の優れた近似品質は、タスクおよびトレーニング段階全体にわたる減衰に対して堅牢であることも示されています。
iEF を使用して既存の近似 NGD オプティマイザーを改善すると、減衰の選択に対する収束能力が向上し、ロバスト性が強化されることが期待されます。

要約(オリジナル)

Approximate Natural Gradient Descent (NGD) methods are an important family of optimisers for deep learning models, which use approximate Fisher information matrices to pre-condition gradients during training. The empirical Fisher (EF) method approximates the Fisher information matrix empirically by reusing the per-sample gradients collected during back-propagation. Despite its ease of implementation, the EF approximation has its theoretical and practical limitations. This paper first investigates the inversely-scaled projection issue of EF, which is shown to be a major cause of the poor empirical approximation quality. An improved empirical Fisher (iEF) method, motivated as a generalised NGD method from a loss reduction perspective, is proposed to address this issue, meanwhile retaining the practical convenience of EF. The exact iEF and EF methods are experimentally evaluated using practical deep learning setups, including widely-used setups for parameter-efficient fine-tuning of pre-trained models (T5-base with LoRA and Prompt-Tuning on GLUE tasks, and ViT with LoRA for CIFAR100). Optimisation experiments show that applying exact iEF as an optimiser provides strong convergence and generalisation. It achieves the best test performance and the lowest training loss for majority of the tasks, even when compared with well-tuned AdamW/Adafactor baselines. Additionally, under a novel empirical evaluation framework, the proposed iEF method shows consistently better approximation quality to the exact Natural Gradient updates than both EF and the more expensive sampled Fisher (SF). Further investigation also shows that the superior approximation quality of iEF is robust to damping across tasks and training stages. Improving existing approximate NGD optimisers with iEF is expected to lead to better convergence ability and stronger robustness to choice of damping.

arxiv情報

著者 Xiaodong Wu,Wenyi Yu,Chao Zhang,Philip Woodland
発行日 2024-06-10 16:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク