要約
プロンプト チューニングは、タスク固有のパラメータ (またはプロンプト) の小さなセットを学習して、事前トレーニングされたトランスフォーマーに一連のタスクについて学習するように指示する、クラス増分学習 (CIL) のためのリハーサル不要の効果的な手法として登場しました。
プロンプト チューニング方法は効果的ではありますが、マルチラベル クラス増分学習 (MLCIL) シナリオ (画像に複数の前景クラスが含まれる場合) には適していません。これは、次の領域に属するさまざまな前景オブジェクトに対応する正しいプロンプトの選択が曖昧であるためです。
複数のタスク。
この問題を回避するために、タスク固有の経路を維持することでプロンプト選択メカニズムを排除し、他のタスクの表現と相互作用しない表現を学習できるようにすることを提案します。
真のインクリメンタル シナリオでの独立したパスウェイでは、プロンプト チューニングにおける二次関数的に複雑なマルチヘッド セルフ アテンション (MSA) 操作により計算量が爆発的に増加するため、元のパッチ トークンの埋め込みを要約されたトークンに削減することを提案します。
その後、これらの少数の要約されたトークンに迅速な調整が適用されて、最終的な表現が計算されます。
私たちが提案する手法であるパッチトークン埋め込みの要約によるマルチラベルクラスの増分学習 (MULTI-LANE) では、高速推論を確保しながら、MLCIL で解きほぐされたタスク固有の表現を学習できます。
私たちは共通のベンチマークで実験を実施し、MULTI-LANE が MLCIL の新しい最先端を達成していることを実証しました。
さらに、MULTI-LANE が CIL 設定でも競争力があることを示します。
ソースコードは https://github.com/tdemin16/multi-lane で入手できます
要約(オリジナル)
Prompt tuning has emerged as an effective rehearsal-free technique for class-incremental learning (CIL) that learns a tiny set of task-specific parameters (or prompts) to instruct a pre-trained transformer to learn on a sequence of tasks. Albeit effective, prompt tuning methods do not lend well in the multi-label class incremental learning (MLCIL) scenario (where an image contains multiple foreground classes) due to the ambiguity in selecting the correct prompt(s) corresponding to different foreground objects belonging to multiple tasks. To circumvent this issue we propose to eliminate the prompt selection mechanism by maintaining task-specific pathways, which allow us to learn representations that do not interact with the ones from the other tasks. Since independent pathways in truly incremental scenarios will result in an explosion of computation due to the quadratically complex multi-head self-attention (MSA) operation in prompt tuning, we propose to reduce the original patch token embeddings into summarized tokens. Prompt tuning is then applied to these fewer summarized tokens to compute the final representation. Our proposed method Multi-Label class incremental learning via summarising pAtch tokeN Embeddings (MULTI-LANE) enables learning disentangled task-specific representations in MLCIL while ensuring fast inference. We conduct experiments in common benchmarks and demonstrate that our MULTI-LANE achieves a new state-of-the-art in MLCIL. Additionally, we show that MULTI-LANE is also competitive in the CIL setting. Source code available at https://github.com/tdemin16/multi-lane
arxiv情報
著者 | Thomas De Min,Massimiliano Mancini,Stéphane Lathuilière,Subhankar Roy,Elisa Ricci |
発行日 | 2024-05-24 15:18:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google