Module-wise Training of Neural Networks via the Minimizing Movement Scheme

要約

ニューラル ネットワークの貪欲な層ごとまたはモジュールごとのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避できるため、メモリが制限されている制約のあるオンデバイス設定では魅力的です。
ただし、初期の層がオーバーフィットし、より深い層が一定の深さを超えるとテスト精度の向上が停止するという停滞の問題があります。
我々は、分布空間における勾配の流れの最小化運動スキームにヒントを得たモジュールごとの正則化を導入することによって、この問題を解決することを提案します。
私たちはこのメソッドを TRGL (Transport Regularized Greedy Learning) と呼んで理論的に研究し、それが規則的でタスクを段階的に解決する貪欲なモジュールにつながることを証明しました。
実験的には、正則化を追加すると、ResNets、Transformers、VGG などのさまざまなアーキテクチャのモジュールごとのトレーニングの精度が向上し、他のモジュールごとのトレーニング方法や、多くの場合エンドツーエンドのトレーニングよりも優れていることがわかりました。
メモリ使用量が 60% も削減されます。

要約(オリジナル)

Greedy layer-wise or module-wise training of neural networks is compelling in constrained and on-device settings where memory is limited, as it circumvents a number of problems of end-to-end back-propagation. However, it suffers from a stagnation problem, whereby early layers overfit and deeper layers stop increasing the test accuracy after a certain depth. We propose to solve this issue by introducing a module-wise regularization inspired by the minimizing movement scheme for gradient flows in distribution space. We call the method TRGL for Transport Regularized Greedy Learning and study it theoretically, proving that it leads to greedy modules that are regular and that progressively solve the task. Experimentally, we show improved accuracy of module-wise training of various architectures such as ResNets, Transformers and VGG, when our regularization is added, superior to that of other module-wise training methods and often to end-to-end training, with as much as 60% less memory usage.

arxiv情報

著者 Skander Karkar,Ibrahim Ayed,Emmanuel de Bézenac,Patrick Gallinari
発行日 2023-09-29 16:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク