Towards Robust Prompts on Vision-Language Models

要約

【タイトル】ビジョン・ランゲージ・モデルにおける頑健なプロンプトに向けて

【要約】
– VLM(ビジョン・ランゲージ・モデル)では、コンテキストやプロンプトベースの学習が可能であるが、分布のシフトに頑健に汎化できるようなプロンプトアプローチを設計することは可能か。
– 本論文では、VLMにおける2つの頑健性を定義する。そのうちの1つは、サポートセットに含まれるベースクラスに対する頑健性で、もう1つは新しいクラスに対する頑健性である。
– 既存のコンテキスト学習とプロンプト学習アプローチの頑健性を調べた結果、プロンプト学習はベースクラスのテスト画像に対して頑健であり、新しいクラスの画像に対しては一般化がうまくいかないことがわかった。
– 複数のスケールの画像特徴をプロンプトに組み込むことにより、両方の頑健性が向上する頑健なプロンプト学習を提案した。
– 6つのベンチマークで定義された頑健性を調べる包括的な実験を行い、提案手法の有効性を示した。

要約(オリジナル)

With the advent of vision-language models (VLMs) that can perform in-context and prompt-based learning, how can we design prompting approaches that robustly generalize to distribution shift and can be used on novel classes outside the support set of the prompts? In this work, we first define two types of robustness to distribution shift on VLMs, namely, robustness on base classes (the classes included in the support set of prompts) and robustness on novel classes. Then, we study the robustness of existing in-context learning and prompt learning approaches, where we find that prompt learning performs robustly on test images from base classes, while it does not generalize well on images from novel classes. We propose robust prompt learning by integrating multiple-scale image features into the prompt, which improves both types of robustness. Comprehensive experiments are conducted to study the defined robustness on six benchmarks and show the effectiveness of our proposal.

arxiv情報

著者 Jindong Gu,Ahmad Beirami,Xuezhi Wang,Alex Beutel,Philip Torr,Yao Qin
発行日 2023-04-17 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク