要約
継続的な学習は、以前の知識を忘れることを防ぎながら、データ ストリーム内の新しい概念を段階的に獲得することを目的としています。
強力な事前トレーニング済みモデル (PTM) の台頭により、最初から学習するのではなく、これらの基礎モデルを使用して増分学習システムをトレーニングすることへの関心が高まっています。
既存の研究では、多くの場合、PTM を強力な初期点と見なし、下流のタスクに適応するために最初のセッションでパラメーター効率の高いチューニング (PET) を直接適用します。
次のセッションでは、ほとんどのメソッドは、忘却の問題に取り組むためにモデル パラメーターをフリーズします。
ただし、PET を下流データに直接適用しても、PTM に固有の知識を完全に探索することはできません。
さらに、増分セッションでパラメータをフリーズすると、最初のセッションではカバーされなかった新しい概念に対するモデルの可塑性が妨げられます。
上記の問題を解決するために、我々は Slow And Fast Parameter-Efficient Tuning (SAFE) フレームワークを提案します。
特に、基礎モデルから一般的な知識を継承するために、PTM と PET 適用モデルの間の相関を測定することにより伝達損失関数を含めます。
最初のセッションで調整した後、低速で効率的な調整パラメーターにより、より有益な機能を取得できるようになり、受信クラスへの一般化が向上します。
さらに、新しいコンセプトをさらに組み込むために、効率の悪いチューニング パラメータを修正し、高速なチューニング パラメータを継続的に更新することで、安定性と可塑性のバランスをとります。
具体的には、壊滅的な忘却を回避するために、特徴アライメントを伴う相互分類損失が提案されています。
推論中に、低速学習器と高速学習器の相補性を動的に利用するために、エントロピーベースの集約戦略を導入します。
7 つのベンチマーク データセットに対する広範な実験により、最先端技術を大幅に上回るこの手法の有効性が検証されました。
要約(オリジナル)
Continual learning aims to incrementally acquire new concepts in data streams while resisting forgetting previous knowledge. With the rise of powerful pre-trained models (PTMs), there is a growing interest in training incremental learning systems using these foundation models, rather than learning from scratch. Existing works often view PTMs as a strong initial point and directly apply parameter-efficient tuning (PET) in the first session for adapting to downstream tasks. In the following sessions, most methods freeze model parameters for tackling forgetting issues. However, applying PET directly to downstream data cannot fully explore the inherent knowledge in PTMs. Additionally, freezing the parameters in incremental sessions hinders models’ plasticity to novel concepts not covered in the first session. To solve the above issues, we propose a Slow And Fast parameter-Efficient tuning (SAFE) framework. In particular, to inherit general knowledge from foundation models, we include a transfer loss function by measuring the correlation between the PTM and the PET-applied model. After calibrating in the first session, the slow efficient tuning parameters can capture more informative features, improving generalization to incoming classes. Moreover, to further incorporate novel concepts, we strike a balance between stability and plasticity by fixing slow efficient tuning parameters and continuously updating the fast ones. Specifically, a cross-classification loss with feature alignment is proposed to circumvent catastrophic forgetting. During inference, we introduce an entropy-based aggregation strategy to dynamically utilize the complementarity in the slow and fast learners. Extensive experiments on seven benchmark datasets verify the effectiveness of our method by significantly surpassing the state-of-the-art.
arxiv情報
著者 | Linglan Zhao,Xuerui Zhang,Ke Yan,Shouhong Ding,Weiran Huang |
発行日 | 2024-11-04 15:34:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google