要約
近年、ゼロからトレーニングするという従来の焦点に代わって、事前トレーニングを伴う継続的学習(CLPT)が広く関心を集めています。
強力な事前トレーニング済みモデル (PTM) を使用すると、知識の伝達が大幅に促進され、壊滅的な忘却が軽減されますが、事前トレーニングされた知識が特定の下流タスクに徐々に過剰適合されるという問題もあります。
現在の取り組みの大部分は、多くの場合、PTM を凍結したままにし、推論のためのプロンプト選択プロセスと組み合わせて、表現学習を指示するタスク固有のプロンプトを組み込んでいます。
ただし、プロンプト パラメーターの容量が限られているため、この戦略は継続学習において次善のパフォーマンスしか示しません。
比較すると、PTM のすべてのパラメーターを調整すると、表現学習に最大の可能性がもたらされることが多く、逐次微調整 (Seq FT) が CLPT では見落とされてきた基本的なベースラインになります。
この目的を達成するために、Seq FT のレンズからの漸進的過学習問題の詳細な分析を提示します。
過度に高速な表現学習と偏った分類層がこの特定の問題を構成していることを考慮して、Seq FT の力を解き放ち、CLPT の強力なベースライン アプローチとして機能する高度な Slow Learner with Classifier Alignment (SLCA++) フレームワークを導入します。
私たちのアプローチには、バックボーン パラメーターの学習率を選択的に低下させるスローラーナーと、ポストホック方式で素の分類層を調整する分類子アラインメントが含まれます。
対称クロスエントロピー損失により SL の有効性をさらに強化し、パラメーター効率の高い戦略を採用して SLCA++ を使用して Seq FT を実装します。
画像分類ベンチマークに関するさまざまな継続的な学習シナリオにわたって、私たちのアプローチは大幅な改善をもたらし、最先端の手法を大幅に上回ります。
コード: https://github.com/GengDavid/SLCA。
要約(オリジナル)
In recent years, continual learning with pre-training (CLPT) has received widespread interest, instead of its traditional focus of training from scratch. The use of strong pre-trained models (PTMs) can greatly facilitate knowledge transfer and alleviate catastrophic forgetting, but also suffers from progressive overfitting of pre-trained knowledge into specific downstream tasks. A majority of current efforts often keep the PTMs frozen and incorporate task-specific prompts to instruct representation learning, coupled with a prompt selection process for inference. However, due to the limited capacity of prompt parameters, this strategy demonstrates only sub-optimal performance in continual learning. In comparison, tuning all parameters of PTMs often provides the greatest potential for representation learning, making sequential fine-tuning (Seq FT) a fundamental baseline that has been overlooked in CLPT. To this end, we present an in-depth analysis of the progressive overfitting problem from the lens of Seq FT. Considering that the overly fast representation learning and the biased classification layer constitute this particular problem, we introduce the advanced Slow Learner with Classifier Alignment (SLCA++) framework to unleash the power of Seq FT, serving as a strong baseline approach for CLPT. Our approach involves a Slow Learner to selectively reduce the learning rate of backbone parameters, and a Classifier Alignment to align the disjoint classification layers in a post-hoc fashion. We further enhance the efficacy of SL with a symmetric cross-entropy loss, as well as employ a parameter-efficient strategy to implement Seq FT with SLCA++. Across a variety of continual learning scenarios on image classification benchmarks, our approach provides substantial improvements and outperforms state-of-the-art methods by a large margin. Code: https://github.com/GengDavid/SLCA.
arxiv情報
著者 | Gengwei Zhang,Liyuan Wang,Guoliang Kang,Ling Chen,Yunchao Wei |
発行日 | 2024-08-15 17:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google