要約
継続学習 (CL) は、古いタスクを忘れることなく、非定常データ ストリーム内のさまざまなタスク (分類など) を段階的に学習することを目的としています。
ほとんどの CL 作品は、ゼロから学習するパラダイムの下で壊滅的な忘却に取り組むことに焦点を当てています。
しかし、基礎モデルの注目度が高まるにつれて、情報表現を備えた事前トレーニング済みモデルがさまざまな下流要件に利用できるようになりました。
事前に抽出された特徴を直接利用する (配布ギャップを埋めるのが困難になる) か、アダプターを組み込む (これは忘れられやすい) という、事前トレーニングされたモデルに基づくいくつかの CL 手法が検討されています。
この論文では、事前トレーニングされたモデルを使用した CL の簡潔で効果的なアプローチを提案します。
パラメーターの更新中に忘却が発生することを考慮して、トレーニング不要のランダム プロジェクターとクラス プロトタイプの蓄積を活用する代替アプローチを検討し、問題を回避します。
具体的には、事前トレーニングされたモデルのフィーチャ表現と出力ヘッドの間に非線形活性化を備えたフリーズされたランダム投影レイヤーを注入します。これにより、拡張された次元でフィーチャ間の相互作用がキャプチャされ、クラス プロトタイプ ベースの CL の線形分離性が強化されます。
また、事前トレーニングされた表現を使用する場合に、クラスプロトタイプを非相関化して分布の不均衡を軽減することの重要性も示します。
これらの手法は効果的であることが証明されており、クラスとドメインの両方の増分継続学習において忘れの問題を回避します。
事前トレーニングされた ViT-B/16 モデルに適用された以前の方法と比較して、リハーサル メモリを使用していないにもかかわらず、7 つのクラス増分ベンチマーク データセットで最終的なエラー率が 10\% ~ 62\% 減少しました。
私たちは、シンプルで効果的かつ高速な継続学習のための事前トレーニング済みモデルの可能性がこれまで十分に活用されていないと結論付けています。
要約(オリジナル)
Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model’s feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 10\% and 62\% on seven class-incremental benchmark datasets, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast continual learning has not hitherto been fully tapped.
arxiv情報
著者 | Mark D. McDonnell,Dong Gong,Amin Parveneh,Ehsan Abbasnejad,Anton van den Hengel |
発行日 | 2023-07-05 12:49:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google