Analysis and Comparison of Two-Level KFAC Methods for Training Deep Neural Networks

要約

タイトル:トレーニング深層ニューラルネットワークのための2層KFACメソッドの分析と比較。

要約:

– 第2の順序方法である自然勾配下降(NGD)は、ニューラルネットワークのトレーニングを加速化する能力があるが、Fisher情報行列(FIM)を計算および逆極性化するためのコンピュータリソースおよびメモリコストが高いため、効率的な近似が必要である。
– 多くの近似が試みられているが、最も洗練されたものはKFACであり、FIMをブロック対角行列として近似し、各ブロックがニューラルネットワークの層に対応する。
– この方法により、KFACは異なる層間の相互作用を無視する。そこで、本研究では、異なる粗い空間を用いたKFACの2層の修正案を、ドメイン分解から着想を得て提案し、評価する。
– 得られた結果は、層間の相互作用をこのように復元することがKFACの性能を本当に改善しないことを示している。これは、ブロック対角線法が十分に堅牢で正確であり、計算時間も経済的であるため、FIMの対角線以外のブロックを破棄することが安全であることを示唆している。

要約(オリジナル)

As a second-order method, the Natural Gradient Descent (NGD) has the ability to accelerate training of neural networks. However, due to the prohibitive computational and memory costs of computing and inverting the Fisher Information Matrix (FIM), efficient approximations are necessary to make NGD scalable to Deep Neural Networks (DNNs). Many such approximations have been attempted. The most sophisticated of these is KFAC, which approximates the FIM as a block-diagonal matrix, where each block corresponds to a layer of the neural network. By doing so, KFAC ignores the interactions between different layers. In this work, we investigate the interest of restoring some low-frequency interactions between the layers by means of two-level methods. Inspired from domain decomposition, several two-level corrections to KFAC using different coarse spaces are proposed and assessed. The obtained results show that incorporating the layer interactions in this fashion does not really improve the performance of KFAC. This suggests that it is safe to discard the off-diagonal blocks of the FIM, since the block-diagonal approach is sufficiently robust, accurate and economical in computation time.

arxiv情報

著者 Abdoulaye Koroko,Ani Anciaux-Sedrakian,Ibtihel Ben Gharbia,Valérie Garès,Mounir Haddou,Quang Huy Tran
発行日 2023-03-31 14:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC パーマリンク