Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models

要約

この研究の目的は、マルチドメインタスク増分学習〜(mtil)の問題に対処することを目的としています。これには、ビジョン言語モデル〜(VLM)が、固有のゼロショット認識能力を維持しながら、新しい知識を継続的に取得する必要があります。
既存のパラダイムは、目に見えないドメインサンプルのテストを元のクリップに委任します。これは、モデルのゼロショット機能の分解を防ぐだけでなく、VLMの一般化をさらに強化することができません。
この目的のために、2つのコアモジュールで構成されるAFAという名前の新しいmTILフレームワークを提案します。(1)VLMSのゼロショット認識能力を高めるための増分タスクの各データセットのタスク不変の情報を学習するフォワード焦点アダプターに対して。
(2)増分学習をサポートしながらVLMの少数の学習能力を強化する後方焦点焦げアダプターに反対します。
広範な実験は、AFAメソッドが、特に少ないショットのMTILタスクで既存の最先端のアプローチを大幅に上回り、転送可能性の点でクリップの固有のゼロショットパフォーマンスを上回ることを示しています。
コードは補足資料で提供されます。

要約(オリジナル)

This study aims to address the problem of multi-domain task incremental learning~(MTIL), which requires that vision-language models~(VLMs) continuously acquire new knowledge while maintaining their inherent zero-shot recognition capability. Existing paradigms delegate the testing of unseen-domain samples to the original CLIP, which only prevents the degradation of the model’s zero-shot capability but fails to enhance the generalization of the VLM further. To this end, we propose a novel MTIL framework, named AFA, which comprises two core modules: (1) an against forward-forgetting adapter that learns task-invariant information for each dataset in the incremental tasks to enhance the zero-shot recognition ability of VLMs; (2) an against backward-forgetting adapter that strengthens the few-shot learning capability of VLMs while supporting incremental learning. Extensive experiments demonstrate that the AFA method significantly outperforms existing state-of-the-art approaches, especially in few-shot MTIL tasks, and surpasses the inherent zero-shot performance of CLIP in terms of transferability. The code is provided in the Supplementary Material.

arxiv情報

著者 Songlin Dong,Chenhao Ding,Jiangyang Li,Jizhou Han,Qiang Wang,Yuhang He,Yihong Gong
発行日 2025-05-12 15:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク