要約
マルチモーダル基礎モデル (CLIP など) の最近の進歩は、ゼロショット一般化において優れています。
基礎モデルから下流のタスクへの知識の伝達に伴う迅速なチューニングが、最近大きな注目を集めています。
しかし、クロスモーダル学習における既存のプロンプトチューニング手法は、言語分岐のみに焦点を当てているか、浅いメカニズムで視覚と言語の相互作用を学習するかのどちらかです。
これに関連して、CLIPに基づいた深結合クロスモーダルプロンプト学習(DCP)方法を提案します。
DCP は、クロスモーダル プロンプト アテンション (CMPA) メカニズムを使用して視覚と言語の間の相互作用に柔軟に対応します。これにより、適切に接続されたマルチヘッド アテンション モジュールを通じて、それぞれの表現の相互交換が段階的かつ強力に可能になります。
次に、11 個の画像分類データセットに対して包括的な少数ショット学習実験を実行し、ドメイン シフトに対する堅牢性も分析します。
徹底的な実験分析は、適切に実行された DCP の優れた少数ショットの一般化と説得力のあるドメイン適応能力を明らかに示しています。
コードは https://github.com/GingL/CMPA にあります。
要約(オリジナル)
Recent advancements in multimodal foundation models (e.g., CLIP) have excelled in zero-shot generalization. Prompt tuning involved in the knowledge transfer from foundation models to downstream tasks has gained significant attention recently. Existing prompt-tuning methods in cross-modal learning, however, either solely focus on language branch, or learn vision-language interaction in a shallow mechanism. In this context, we propose a Deeply coupled Cross-modal Prompt learning (DCP) method based on CLIP. DCP flexibly accommodates the interplay between vision and language with a Cross-Modal Prompt Attention (CMPA) mechanism, which enables the mutual exchange of respective representation through a well-connected multi-head attention module progressively and strongly. We then conduct comprehensive few-shot learning experiments on 11 image classification datasets and analyze the robustness to domain shift as well. Thorough experimental analysis evidently demonstrates the superb few-shot generalization and compelling domain adaption capacity of a well-executed DCP. The code can be found at https://github.com/GingL/CMPA.
arxiv情報
著者 | Xuejing Liu,Wei Tang,Jinghui Lu,Rui Zhao,Zhaojun Guo,Fei Tan |
発行日 | 2023-12-06 15:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google