Probabilistic Prompt Learning for Dense Prediction

要約

タイトル:確率的なプロンプト学習による密な予測

要約:

– 決定論的なプロンプト学習は、事前にトレーニングされたビジョン言語モデルの助けを借りて強力なビジュアル表現を学習することができ、下流のビジョンタスクに有望な代替手段になっている。
– しかしながら、このアプローチは、より複雑で多様なオブジェクトを扱う必要がある密な予測タスクに対しては限られたパフォーマンスを示す傾向があるため、問題がある。
– この論文では、ビジョン言語の知識を密な予測タスクで十分に活用するために、新しい確率的プロンプト学習を提案する。
– まず、クラス非依存の属性プロンプトを導入し、オブジェクトクラス全体にわたる共通の属性を記述する。これらの属性は、クラス情報とビジュアルコンテキストの知識と組み合わせて、クラス固有のテキスト分布を定義する。
– テキスト表現はサンプリングされ、確率的ピクセルテキストマッチング損失を用いて密な予測タスクを誘導するために使用される。
– 提案手法の安定性と汎化能力を高めるように設計されている。さまざまな密な予測タスクとアブレーション研究における広範な実験が、提案手法の有効性を実証している。

要約(オリジナル)

Recent progress in deterministic prompt learning has become a promising alternative to various downstream vision tasks, enabling models to learn powerful visual representations with the help of pre-trained vision-language models. However, this approach results in limited performance for dense prediction tasks that require handling more complex and diverse objects, since a single and deterministic description cannot sufficiently represent the entire image. In this paper, we present a novel probabilistic prompt learning to fully exploit the vision-language knowledge in dense prediction tasks. First, we introduce learnable class-agnostic attribute prompts to describe universal attributes across the object class. The attributes are combined with class information and visual-context knowledge to define the class-specific textual distribution. Text representations are sampled and used to guide the dense prediction task using the probabilistic pixel-text matching loss, enhancing the stability and generalization capability of the proposed method. Extensive experiments on different dense prediction tasks and ablation studies demonstrate the effectiveness of our proposed method.

arxiv情報

著者 Hyeongjun Kwon,Taeyong Song,Somi Jeong,Jin Kim,Jinhyun Jang,Kwanghoon Sohn
発行日 2023-04-03 08:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク