Semantic Residual Prompts for Continual Learning

要約

継続学習 (CL) のプロンプト チューニング手法では、事前にトレーニングされた大規模なモデルをフリーズし、プロンプトと呼ばれるいくつかのパラメーター ベクトルにトレーニングを集中させます。
これらのメソッドのほとんどは、これらのベクトルをキーと値のペアのプールに編成し、入力画像をクエリとして使用してプロンプト (値) を取得します。
ただし、タスクの進行中にキーが学習されるため、プロンプト選択戦略自体が壊滅的な忘れに見舞われやすく、この問題は既存のアプローチでは見落とされがちです。
たとえば、新しいタスクに対応するために導入されたプロンプトが、以前に学習したプロンプトと干渉してしまう可能性があります。
選択戦略をより安定させるために、基礎モデル (CLIP) に 2 レベルの適応メカニズム内でプロンプトを選択するように依頼します。
具体的には、最初のレベルでは、CLIP テキスト エンコーダの標準テキスト プロンプトを活用し、安定したクラス プロトタイプを生成します。
代わりに、2 番目のレベルでは、これらのプロトタイプとクエリ画像をキーとして使用して、2 番目のプールにインデックスを付けます。
取得されたプロンプトは、事前にトレーニングされた ViT を適応させるのに役立ち、可塑性を与えます。
その際、CLIP セマンティクスを ViT レイヤーに転送するための新しい残留メカニズムも提案します。
確立された CL ベンチマークの広範な分析を通じて、私たちの方法が最先端の CL アプローチとゼロショット CLIP テストの両方を大幅に上回ることを示します。
特に、私たちの調査結果は、実質的なドメインギャップがあるデータセットにも当てはまります。
衛星画像と医療データセットの実験によって示される、バックボーン モデルの事前トレーニング知識。

要約(オリジナル)

Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and focus training on a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs, and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we ask a foundational model (CLIP) to select our prompt within a two-level adaptation mechanism. Specifically, the first level leverages standard textual prompts for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets.

arxiv情報

著者 Martin Menabue,Emanuele Frascaroli,Matteo Boschini,Enver Sangineto,Lorenzo Bonicelli,Angelo Porrello,Simone Calderara
発行日 2024-03-11 16:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク