Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

要約

組成ゼロショット学習 (CZSL) タスクは、目に見えない組成視覚概念 (例: スライスされたトマト) を認識することを目的としています。モデルは、スライスされたジャガイモや赤いトマトなど、目に見える組成からのみ学習されます。
CLIP などの大規模な事前トレーニング済み視覚言語モデルの迅速な調整のおかげで、最近の文献では、従来のビジョンベースの方法よりも CZSL のパフォーマンスが驚くほど優れていることが示されています。
しかし、クラスコンテキストの多様性と有益性、および視覚的なプリミティブ、つまり状態とオブジェクト間の絡み合いなど、目に見えない構成への一般化に影響を与える重要な側面は、既存の CLIP ベースの CZSL 文献では適切に扱われていません。
この論文では、CZSL タスクに対して、言語情報に基づいたディストリビューション、別名 PLID をプロンプトすることによるモデルを提案します。
具体的には、PLID は、事前トレーニングされた大規模言語モデル (LLM) を活用して、(i) 多様で有益な言語情報に基づいたクラス分布を定式化し、(ii) クラス埋め込みの構成性を強化します。
さらに、視覚言語プリミティブ分解 (VLPD) モジュールは、構成空間とプリミティブ空間からの分類決定を動的に融合するために提案されています。
ソフト、ハード、または分布プロンプトに関する既存の文献とは直交する、私たちのメソッドは、LLM でサポートされるクラス分布をプロンプトすることを提唱し、より優れたゼロショット一般化につながります。
MIT-States、UT-Zappos、および C-GQA データセットに関する実験結果は、PLID のパフォーマンスが従来技術よりも優れていることを示しています。
私たちのコードとモデルは、https://github.com/Cogito2012/PLID からリリースされています。

要約(オリジナル)

Compositional zero-shot learning (CZSL) task aims to recognize unseen compositional visual concepts, e.g., sliced tomatoes, where the model is learned only from the seen compositions, e.g., sliced potatoes and red tomatoes. Thanks to the prompt tuning on large pre-trained visual language models such as CLIP, recent literature shows impressively better CZSL performance than traditional vision-based methods. However, the key aspects that impact the generalization to unseen compositions, including the diversity and informativeness of class context, and the entanglement between visual primitives, i.e., state and object, are not properly addressed in existing CLIP-based CZSL literature. In this paper, we propose a model by prompting the language-informed distribution, aka., PLID, for the CZSL task. Specifically, the PLID leverages pre-trained large language models (LLM) to (i) formulate the language-informed class distributions which are diverse and informative, and (ii) enhance the compositionality of the class embedding. Moreover, a visual-language primitive decomposition (VLPD) module is proposed to dynamically fuse the classification decisions from the compositional and the primitive space. Orthogonal to the existing literature of soft, hard, or distributional prompts, our method advocates prompting the LLM-supported class distributions, leading to a better zero-shot generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA datasets show the superior performance of the PLID to the prior arts. Our code and models are released: https://github.com/Cogito2012/PLID.

arxiv情報

著者 Wentao Bao,Lichang Chen,Heng Huang,Yu Kong
発行日 2024-07-10 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク