LAMM: Label Alignment for Multi-Modal Prompt Learning

要約

視覚表現タスクにおける CLIP などの事前トレーニング済みビジュアル言語 (VL) モデルの成功により、事前トレーニング済みモデルを下流タスクに転送することが重要なパラダイムになりました。
最近、自然言語処理 (NLP) からインスピレーションを得たプロンプト チューニング パラダイムが VL 分野で大幅に進歩しました。
ただし、前述の方法は主に、テキストおよびビジュアル入力用のプロンプト テンプレートの構築に焦点を当てており、VL モデルと下流タスクの間のクラス ラベル表現のギャップを無視しています。
この課題に対処するために、\textbf{LAMM} という革新的なラベル配置方法を導入しました。これは、エンドツーエンドのトレーニングを通じて下流データセットのカテゴリ埋め込みを動的に調整できます。
さらに、より適切なラベル分布を実現するために、パラメータ空間、特徴空間、およびロジット空間の調整を含む階層的損失を提案します。
私たちは 11 の下流視覚データセットで実験を実施し、私たちの方法が少数ショットのシナリオで既存のマルチモーダル プロンプト学習モデルのパフォーマンスを大幅に向上させ、現状と比較して平均 2.31(\%) の精度向上を示したことを実証しました。
-16ショットのアートメソッド。
さらに、私たちの方法論は、他の迅速なチューニング方法と比較して、継続的な学習において優れた性能を示します。
重要なのは、私たちの方法は既存のプロンプト チューニング方法と相乗効果があり、それらの方法に加えてパフォーマンスを向上させることができるということです。
私たちのコードとデータセットは https://github.com/gaojingsheng/LAMM で公開されます。

要約(オリジナル)

With the success of pre-trained visual-language (VL) models such as CLIP in visual representation tasks, transferring pre-trained models to downstream tasks has become a crucial paradigm. Recently, the prompt tuning paradigm, which draws inspiration from natural language processing (NLP), has made significant progress in VL field. However, preceding methods mainly focus on constructing prompt templates for text and visual inputs, neglecting the gap in class label representations between the VL models and downstream tasks. To address this challenge, we introduce an innovative label alignment method named \textbf{LAMM}, which can dynamically adjust the category embeddings of downstream datasets through end-to-end training. Moreover, to achieve a more appropriate label distribution, we propose a hierarchical loss, encompassing the alignment of the parameter space, feature space, and logits space. We conduct experiments on 11 downstream vision datasets and demonstrate that our method significantly improves the performance of existing multi-modal prompt learning models in few-shot scenarios, exhibiting an average accuracy improvement of 2.31(\%) compared to the state-of-the-art methods on 16 shots. Moreover, our methodology exhibits the preeminence in continual learning compared to other prompt tuning methods. Importantly, our method is synergistic with existing prompt tuning methods and can boost the performance on top of them. Our code and dataset will be publicly available at https://github.com/gaojingsheng/LAMM.

arxiv情報

著者 Jingsheng Gao,Jiacheng Ruan,Suncheng Xiang,Zefang Yu,Ke Ji,Mingye Xie,Ting Liu,Yuzhuo Fu
発行日 2023-12-13 15:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク