Lookbehind-SAM: k steps back, 1 step forward

要約

シャープネスを意識した最小化 (SAM) 手法は、最小目標として損失値と損失シャープネスの両方を最小化する問題を定式化することで、ますます人気が高まっています。
この作業では、SAM の目的の最大化部分と最小化部分の効率を高めて、損失とシャープネスのより良いトレードオフを達成します。
複数の下降ステップを先に使用する Lookahead オプティマイザーからインスピレーションを得て、複数の上昇ステップを後ろに実行して SAM の最大化ステップを強化し、より高い損失を伴う最悪の場合の摂動を見つける Lookbehind を提案します。
次に、複数の上昇ステップにわたって収集された勾配から生じる下降ステップの分散を軽減するために、線形補間を使用して最小化ステップを改良します。
後読みは、さまざまなタスクにわたって無数の利点をもたらします。
特に、汎化パフォーマンスの向上、ノイズの多い重みに対するロバスト性の向上、および生涯学習設定における学習の改善と壊滅的な忘却の減少を示しています。
私たちのコードは https://github.com/chandar-lab/Lookbehind-SAM で入手できます。

要約(オリジナル)

Sharpness-aware minimization (SAM) methods have gained increasing popularity by formulating the problem of minimizing both loss value and loss sharpness as a minimax objective. In this work, we increase the efficiency of the maximization and minimization parts of SAM’s objective to achieve a better loss-sharpness trade-off. By taking inspiration from the Lookahead optimizer, which uses multiple descent steps ahead, we propose Lookbehind, which performs multiple ascent steps behind to enhance the maximization step of SAM and find a worst-case perturbation with higher loss. Then, to mitigate the variance in the descent step arising from the gathered gradients across the multiple ascent steps, we employ linear interpolation to refine the minimization step. Lookbehind leads to a myriad of benefits across a variety of tasks. Particularly, we show increased generalization performance, greater robustness against noisy weights, as well as improved learning and less catastrophic forgetting in lifelong learning settings. Our code is available at https://github.com/chandar-lab/Lookbehind-SAM.

arxiv情報

著者 Gonçalo Mordido,Pranshu Malviya,Aristide Baratin,Sarath Chandar
発行日 2024-05-16 16:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク