要約
ビジョン言語モデルは最近、コンピューター ビジョンの多くのタスクにおいて大きな可能性を示しています。
一方、これまでの研究では、視覚言語モデル用に設計された迅速な調整が、強力なベースラインであるリニアプローブと比較して、少数ショットの画像認識で優れたパフォーマンスを獲得できることを示しています。
実際には、特に特殊なドメイン内では、多くの数回のタスクが本質的に相関しています。
しかし、そのような情報は以前は見落とされてきました。
マルチタスク学習によるタスク関係のモデリングは通常パフォーマンスを向上させることができるという事実に触発され、我々は、複数のターゲットの少数ショットタスクで事前トレーニングされたビジョン言語モデルを共同で調整するための新しい方法SoftCPT(プロンプトチューニングのためのソフトコンテキスト共有)を提案します。
具体的には、タスク名と学習可能なタスク コンテキストを入力として使用して、各タスクのプロンプト コンテキストを生成するタスク共有メタ ネットワークを設計します。
このメタ ネットワークのパラメーターとタスク コンテキストは、すべてのタスクの共同トレーニング セットに基づいて調整されます。
そのため、すべてのタスクの即時コンテキストがソフトな方法で共有されます。
44 のタスクと 1593 のカテゴリをカバーする 4 つのマルチタスクの少数ショット データセットにわたる広範な実験により、SoftCPT がシングルタスクのプロンプト チューニング手法を大幅に上回ることが実証され、視覚言語プロンプト チューニングにおけるマルチタスク学習の有効性が強調されています。
コードは https://github.com/kding1225/softcpt で入手できます。
要約(オリジナル)
Vision-language models have recently shown great potential on many tasks in computer vision. Meanwhile, prior work demonstrates prompt tuning designed for vision-language models could acquire superior performance on few-shot image recognition compared to linear probe, a strong baseline. In practice, many few-shot tasks are inherently correlated, particularly within specialized domains. However, such information is overlooked previously. Inspired by the fact that modeling task relationship by multi-task learning can usually boost performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt Tuning) to tune pre-trained vision-language models on multiple target few-shot tasks jointly. Specifically, we design a task-shared meta network to generate prompt context for each task using task name together with a learnable task context as input. The parameters of this meta network as well as the task context are tuned on the joint training set of all tasks. As such, the prompt context of all tasks will be shared in a soft manner. Extensive experiments across four multi-task few-shot datasets covering 44 tasks and 1593 categories demonstrate that SoftCPT significantly outperforms single-task prompt tuning methods, highlighting the effectiveness of multi-task learning for vision-language prompt tuning. Code is available at https://github.com/kding1225/softcpt.
arxiv情報
著者 | Kun Ding,Ying Wang,Pengzhang Liu,Qiang Yu,Haojian Zhang,Shiming Xiang,Chunhong Pan |
発行日 | 2024-03-31 08:12:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google