要約
タイトル:深層ニューラルネットワークのトレーニングに向けた2レベルKFAC法の分析と比較
要約:
– 2次の方法である自然勾配降下法(NGD)は、ニューラルネットワークのトレーニングを加速させる能力を持つ。
– しかし、フィッシャー情報行列(FIM)の計算と逆行列の計算に関する高コストなコンピューターとメモリコストのためNGDをDNNにスケーラブルにするために効率的な近似が必要である。
– これまでに多くの近似が試みられてきたが、最も複雑なものはKFACであり、FIMを各ブロックがニューラルネットワークのレイヤーに対応するブロック対角行列として近似する。
– これによって、KFACは異なるレイヤー間の相互作用を無視する。
– 本研究では、ドメイン分割から着想を得た2レベルメソッドを用いて、レイヤー間の一部の低周波相互作用を復元することの意義を調査する。
– 異なる粗い空間を用いたKFACに対するいくつかの2レベルの修正が提案され、評価されている。
– 得られた結果から、この方法でレイヤー間の相互作用を組み込んでも、KFACの性能が実際に向上しないことが示されている。
– これは、FIMの対角ブロックを破棄しても、ブロック対角アプローチが十分に堅牢で正確で、計算時間が経済的であるため、安全に見捨てることができることを示唆している。
要約(オリジナル)
As a second-order method, the Natural Gradient Descent (NGD) has the ability to accelerate training of neural networks. However, due to the prohibitive computational and memory costs of computing and inverting the Fisher Information Matrix (FIM), efficient approximations are necessary to make NGD scalable to Deep Neural Networks (DNNs). Many such approximations have been attempted. The most sophisticated of these is KFAC, which approximates the FIM as a block-diagonal matrix, where each block corresponds to a layer of the neural network. By doing so, KFAC ignores the interactions between different layers. In this work, we investigate the interest of restoring some low-frequency interactions between the layers by means of two-level methods. Inspired from domain decomposition, several two-level corrections to KFAC using different coarse spaces are proposed and assessed. The obtained results show that incorporating the layer interactions in this fashion does not really improve the performance of KFAC. This suggests that it is safe to discard the off-diagonal blocks of the FIM, since the block-diagonal approach is sufficiently robust, accurate and economical in computation time.
arxiv情報
| 著者 | Abdoulaye Koroko,Ani Anciaux-Sedrakian,Ibtihel Ben Gharbia,Valérie Garès,Mounir Haddou,Quang Huy Tran |
| 発行日 | 2023-04-03 07:41:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI