要約
マルチモーダル学習の最近の進歩により、強力な視覚言語モデルが生まれ、その表現はさまざまな下流タスクにわたって一般化可能です。
最近では、自然言語処理の文献から借用したトレーニング可能なプロンプトを組み込むことで、その一般化可能性がさらに拡張されました。
このようなプロンプト学習手法は目覚ましい結果を示していますが、これらのプロンプトはグローバル画像特徴に基づいてトレーニングされているため、次の 2 つの側面で制限されることがわかります。 まず、グローバル特徴を使用することにより、これらのプロンプトは識別可能な前景画像にあまり焦点を当てなくなる可能性があり、その結果、次のような結果が得られます。
配布外のさまざまなテストケースに対する一般化が不十分です。
第 2 に、既存の研究ではすべてのプロンプトが均等に重み付けされていますが、私たちの直観では、これらのプロンプトは画像のタイプにより固有であると考えられます。
私たちは、画像の局所的な特徴にプロンプトを合わせることができる、私たちが提案するコンテキスト プロンプト学習 (CoPL) フレームワークの一部としてこれらの問題に対処します。
以前の研究に対する私たちの主な革新には、プロンプト学習プロセスの一部としてローカル画像特徴を使用すること、そしてより重要なことに、当面のタスクに適切なローカル特徴に基づいてこれらのプロンプトの重み付けを学習することが含まれます。
これにより、ローカルの画像の特徴に合わせて、またローカルのコンテキスト上の関係を認識した動的なプロンプトが得られます。
さまざまな標準および少数ショットのデータセットに対する私たちの広範な実験セットは、現在の最先端の方法と比較して、私たちの方法が大幅に向上したパフォーマンスを生み出すことを示しています。
また、少数ショットと分布外のパフォーマンスの両方を実証し、ローカル画像の特徴に合わせた動的プロンプトを学習する有用性を確立します。
要約(オリジナル)
Recent advances in multimodal learning has resulted in powerful vision-language models, whose representations are generalizable across a variety of downstream tasks. Recently, their generalizability has been further extended by incorporating trainable prompts, borrowed from the natural language processing literature. While such prompt learning techniques have shown impressive results, we identify that these prompts are trained based on global image features which limits itself in two aspects: First, by using global features, these prompts could be focusing less on the discriminative foreground image, resulting in poor generalization to various out-of-distribution test cases. Second, existing work weights all prompts equally whereas our intuition is that these prompts are more specific to the type of the image. We address these issues with as part of our proposed Contextual Prompt Learning (CoPL) framework, capable of aligning the prompts to the localized features of the image. Our key innovations over earlier works include using local image features as part of the prompt learning process, and more crucially, learning to weight these prompts based on local features that are appropriate for the task at hand. This gives us dynamic prompts that are both aligned to local image features as well as aware of local contextual relationships. Our extensive set of experiments on a variety of standard and few-shot datasets show that our method produces substantially improved performance when compared to the current state of the art methods. We also demonstrate both few-shot and out-of-distribution performance to establish the utility of learning dynamic prompts that are aligned to local image features.
arxiv情報
著者 | Koustava Goswami,Srikrishna Karanam,Joseph K J,Prateksha Udhayanan,Balaji Vasan Srinivasan |
発行日 | 2023-07-03 10:14:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google