Lookbehind Optimizer: k steps back, 1 step forward

要約

Lookahead オプティマイザーは、下降方向をガイドするために「先読み」する高速重みのセットを備えているため、ディープ ニューラル ネットワークのトレーニングの安定性が向上します。
ここでは、このアイデアをシャープネスを意識した最小化 (SAM) と組み合わせて、そのマルチステップのバリアントを安定させ、損失とシャープネスのトレードオフを改善します。
我々は、各反復で $k$ 勾配上昇ステップ (「後方参照」) を計算し、勾配を組み合わせて下降ステップを平坦な最小値に向けてバイアスする Lookbehind を提案します。
私たちは、シャープネスを意識した 2 つの一般的なトレーニング方法である SAM とアダプティブ SAM (ASAM) に加えて Lookbehind を適用し、私たちのアプローチがさまざまなタスクやトレーニング体制にわたって無数の利点をもたらすことを示します。
特に、生涯学習環境における汎化パフォーマンスの向上、ノイズの多い重みに対するロバスト性の向上、壊滅的な忘却に対する耐性の向上を示しました。

要約(オリジナル)

The Lookahead optimizer improves the training stability of deep neural networks by having a set of fast weights that ‘look ahead’ to guide the descent direction. Here, we combine this idea with sharpness-aware minimization (SAM) to stabilize its multi-step variant and improve the loss-sharpness trade-off. We propose Lookbehind, which computes $k$ gradient ascent steps (‘looking behind’) at each iteration and combine the gradients to bias the descent step toward flatter minima. We apply Lookbehind on top of two popular sharpness-aware training methods — SAM and adaptive SAM (ASAM) — and show that our approach leads to a myriad of benefits across a variety of tasks and training regimes. Particularly, we show increased generalization performance, greater robustness against noisy weights, and higher tolerance to catastrophic forgetting in lifelong learning settings.

arxiv情報

著者 Gonçalo Mordido,Pranshu Malviya,Aristide Baratin,Sarath Chandar
発行日 2023-07-31 14:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク