要約
連続学習(CL)における感度と安定性のジレンマに対処するためには、逐次到着するタスクから動的に更新される知識を漸進的に獲得する際のモデル汎化能力が重要である。一様な低損失または滑らかな勾配を持つ近傍領域に横たわる平坦な極小値を求める重み損失ランドスケープのシャープネス最小化は、SGDのような損失最小化ベースのオプティマイザと比較して、モデルの汎化を向上させる強力な学習レジームであることが証明されている。しかし、CLに対するこの学習レジームについて論じた研究はごく少数であり、専用に設計された0次シャープネス最適化器がCLの性能を向上させることを証明している。本研究では、CL用に調整されたより平坦なロスランドスケープを特徴とするContinual Flatness(C-Flat)法を提案する。C-Flatは、たった1行のコードで簡単に呼び出すことができ、あらゆるCL手法にプラグアンドプレイで対応できる。本論文では、C-Flatの一般的なフレームワークをすべてのCLカテゴリに適用し、損失最小値オプティマイザやフラット最小値ベースのCLアプローチとの徹底的な比較を行い、我々の手法がほぼすべてのケースでCL性能を向上できることを示す。コードはhttps://github.com/WanNaa/C-Flat。
要約(オリジナル)
Model generalization ability upon incrementally acquiring dynamically updating knowledge from sequentially arriving tasks is crucial to tackle the sensitivity-stability dilemma in Continual Learning (CL). Weight loss landscape sharpness minimization seeking for flat minima lying in neighborhoods with uniform low loss or smooth gradient is proven to be a strong training regime improving model generalization compared with loss minimization based optimizer like SGD. Yet only a few works have discussed this training regime for CL, proving that dedicated designed zeroth-order sharpness optimizer can improve CL performance. In this work, we propose a Continual Flatness (C-Flat) method featuring a flatter loss landscape tailored for CL. C-Flat could be easily called with only one line of code and is plug-and-play to any CL methods. A general framework of C-Flat applied to all CL categories and a thorough comparison with loss minima optimizer and flat minima based CL approaches is presented in this paper, showing that our method can boost CL performance in almost all cases. Code is available at https://github.com/WanNaa/C-Flat.
arxiv情報
著者 | Ang Bian,Wei Li,Hangjie Yuan,Chengrong Yu,Mang Wang,Zixiang Zhao,Aojun Lu,Pengliang Ji,Tao Feng |
発行日 | 2024-11-01 05:03:19+00:00 |
arxivサイト | arxiv_id(pdf) |