Convolutional Prompting meets Language Models for Continual Learning

要約

継続学習 (CL) を使用すると、古いタスクからのデータがない場合でも、新しいトレーニング データを継続的にシフトして機械学習モデルを学習できます。
最近、事前に訓練されたビジョントランスフォーマーと即時調整を組み合わせることで、CL の壊滅的な物忘れを克服できる可能性が示されました。
これらのアプローチは、学習可能なプロンプトのプールに依存しているため、タスク間で知識を共有するのが非効率的であり、パフォーマンスの低下につながる可能性があります。
さらに、きめの細かいレイヤー固有のプロンプトが欠如しているため、CL のプロンプトの強さを完全に表現することができません。
私たちは、レイヤーごとの共有埋め込みを維持する新しい畳み込みプロンプト作成メカニズムである ConvPrompt を提案することで、これらの制限に対処します。これにより、レイヤー固有の学習とタスク間でのより良い概念の伝達の両方が可能になります。
畳み込みをインテリジェントに使用することで、パフォーマンスを損なうことなくパラメータのオーバーヘッドを低く維持できます。
さらに、大規模言語モデルを活用して、各カテゴリのきめ細かいテキスト説明を生成し、タスクの類似性を取得し、学習するプロンプトの数を動的に決定するために使用します。
広範な実験により、ConvPrompt の優位性が実証され、パラメータのオーバーヘッドが大幅に減少し、SOTA が最大 3% 改善されました。
また、さまざまなコンポーネントの重要性を解きほぐすために、さまざまなモジュールに対して強力なアブレーションを実行します。

要約(オリジナル)

Continual Learning (CL) enables machine learning models to learn from continuously shifting new training data in absence of data from old tasks. Recently, pretrained vision transformers combined with prompt tuning have shown promise for overcoming catastrophic forgetting in CL. These approaches rely on a pool of learnable prompts which can be inefficient in sharing knowledge across tasks leading to inferior performance. In addition, the lack of fine-grained layer specific prompts does not allow these to fully express the strength of the prompts for CL. We address these limitations by proposing ConvPrompt, a novel convolutional prompt creation mechanism that maintains layer-wise shared embeddings, enabling both layer-specific learning and better concept transfer across tasks. The intelligent use of convolution enables us to maintain a low parameter overhead without compromising performance. We further leverage Large Language Models to generate fine-grained text descriptions of each category which are used to get task similarity and dynamically decide the number of prompts to be learned. Extensive experiments demonstrate the superiority of ConvPrompt and improves SOTA by ~3% with significantly less parameter overhead. We also perform strong ablation over various modules to disentangle the importance of different components.

arxiv情報

著者 Anurag Roy,Riddhiman Moulick,Vinay K. Verma,Saptarshi Ghosh,Abir Das
発行日 2024-03-29 17:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク