要約
プロンプトチューニングは、タスクごとに学習したプロンプトベクトルを条件とすることで、大規模な事前学習済み視覚言語モデルを複数の下流タスクに適応させるためのデータ効率・パラメータ効率に優れた手法として注目されている。しかし、既存の手法では、タスクごとにプロンプトベクトを一から個別に学習するため、異なる視覚言語タスク間で共有可能な豊富な知識を利用することができない。本論文では、タスク横断的な知識を視覚言語モデルのプロンプトチューニングに取り込む、マルチタスク視覚言語プロンプトチューニング(MVLPT)を提案する。具体的には、(i)複数のソースタスクから単一の伝達可能なプロンプトを学習し、各ターゲットタスクのプロンプトを初期化することの有効性を示し、(ii)多くのターゲットタスクがプロンプトベクトを共有することで互いに利益を得、したがってマルチタスクプロンプトチューニングを介して共同で学習できることを示す。提案するMVLPTのベンチマークとして、テキストプロンプトチューニング、視覚プロンプトチューニング、視覚言語統一プロンプトチューニングの3つの代表的なプロンプトチューニング手法を用いる。20の視覚タスクにおいて、提案手法は全ての単一タスクプロンプトチューニング手法を凌駕し、数ショットELEVATERベンチマークとクロスタスク汎化ベンチマークにおいて最先端であることが実証された。また、タスク横断的な知識が最も効果的であることを理解するために、各プロンプトチューニング手法に対して、20のビジョンタスクを400通り組み合わせた大規模なタスクトランスファーに関する研究を実施した。その結果、各プロンプトチューニング手法で最も性能の良いMVLPTは、異なるタスクの組み合わせを好むこと、多くのタスクが視覚的類似性とラベルの類似性に依存して、互いに利益を得ることができることが示されました。コードは https://github.com/sIncerass/MVLPT で公開されています。
要約(オリジナル)
Prompt Tuning, conditioning on task-specific learned prompt vectors, has emerged as a data-efficient and parameter-efficient method for adapting large pretrained vision-language models to multiple downstream tasks. However, existing approaches usually consider learning prompt vectors for each task independently from scratch, thereby failing to exploit the rich shareable knowledge across different vision-language tasks. In this paper, we propose multitask vision-language prompt tuning (MVLPT), which incorporates cross-task knowledge into prompt tuning for vision-language models. Specifically, (i) we demonstrate the effectiveness of learning a single transferable prompt from multiple source tasks to initialize the prompt for each target task; (ii) we show many target tasks can benefit each other from sharing prompt vectors and thus can be jointly learned via multitask prompt tuning. We benchmark the proposed MVLPT using three representative prompt tuning methods, namely text prompt tuning, visual prompt tuning, and the unified vision-language prompt tuning. Results in 20 vision tasks demonstrate that the proposed approach outperforms all single-task baseline prompt tuning methods, setting the new state-of-the-art on the few-shot ELEVATER benchmarks and cross-task generalization benchmarks. To understand where the cross-task knowledge is most effective, we also conduct a large-scale study on task transferability with 20 vision tasks in 400 combinations for each prompt tuning method. It shows that the most performant MVLPT for each prompt tuning method prefers different task combinations and many tasks can benefit each other, depending on their visual similarity and label similarity. Code is available at https://github.com/sIncerass/MVLPT.
arxiv情報
著者 | Sheng Shen,Shijia Yang,Tianjun Zhang,Bohan Zhai,Joseph E. Gonzalez,Kurt Keutzer,Trevor Darrell |
発行日 | 2022-12-05 16:31:49+00:00 |
arxivサイト | arxiv_id(pdf) |