IAP: Improving Continual Learning of Vision-Language Models via Instance-Aware Prompting

要約

最近の訓練を受けた視覚言語モデル(PT-VLMS)は、実際にはマルチドメインのクラスインクリメンタル学習(MCIL)シナリオに直面していることが多く、マルチモーダルタスクのいくつかのクラスとドメインが段階的に到着します。
以前に学んだタスクや目に見えないタスクにアクセスしないと、メモリに制約のあるMCILは、前方および後方の忘却に苦しんでいます。
上記の課題を軽減するために、PT-VLMを多様な段階的に学習したタスクに適応するために、迅速な調整などのパラメーター効率の高い微調整技術(PEFT)が採用されています。
効果的な新しいタスク適応を実現するために、既存の方法はPEFT戦略選択の効果のみを考慮しますが、PEFTパラメーター設定の影響を無視します(例:プロンプト)。
この論文では、MCILの多様なタスクの迅速な設計を最適化するという課題に取り組み、インスタンス認識プロンプト(IAP)フレームワークを提案します。
具体的には、インスタンスが認識しているゲートプロンプト(IA-GP)モジュールは、インスタンスレベルでトランスレイヤー全体にプロンプ​​トを動的に割り当てることにより、忘れを軽減しながら、新しいタスクへの適応を強化します。
インスタンス認識クラスディストリビューション駆動型プロンプト(IA-CDDP)は、各インスタンスの正確なタスクラベル関連の信頼性スコアを決定することにより、タスク適応プロセスを改善します。
3つのパフォーマンスメトリックを使用した11のデータセットにわたる実験的評価は、提案された方法の有効性を示しています。
コードはhttps://github.com/ferdinandzju/iapにあります。

要約(オリジナル)

Recent pre-trained vision-language models (PT-VLMs) often face a Multi-Domain Class-Incremental Learning (MCIL) scenario in practice, where several classes and domains of multi-modal tasks are incrementally arrived. Without access to previously learned tasks and unseen tasks, memory-constrained MCIL suffers from forward and backward forgetting. To alleviate the above challenges, parameter-efficient fine-tuning techniques (PEFT), such as prompt tuning, are employed to adapt the PT-VLM to the diverse incrementally learned tasks. To achieve effective new task adaptation, existing methods only consider the effect of PEFT strategy selection, but neglect the influence of PEFT parameter setting (e.g., prompting). In this paper, we tackle the challenge of optimizing prompt designs for diverse tasks in MCIL and propose an Instance-Aware Prompting (IAP) framework. Specifically, our Instance-Aware Gated Prompting (IA-GP) module enhances adaptation to new tasks while mitigating forgetting by dynamically assigning prompts across transformer layers at the instance level. Our Instance-Aware Class-Distribution-Driven Prompting (IA-CDDP) improves the task adaptation process by determining an accurate task-label-related confidence score for each instance. Experimental evaluations across 11 datasets, using three performance metrics, demonstrate the effectiveness of our proposed method. Code can be found at https://github.com/FerdinandZJU/IAP.

arxiv情報

著者 Hao Fu,Hanbin Zhao,Jiahua Dong,Chao Zhang,Hui Qian
発行日 2025-03-26 14:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク