Learn ‘No’ to Say ‘Yes’ Better: Improving Vision-Language Models via Negations

要約

既存のビジョン言語モデル (VLM) は、テキストの説明を 1 つの単位として扱い、プロンプト内の個々の概念を混乱させ、視覚的な意味の一致と推論を損ないます。
論理と言語における推論の重要な側面は否定です。
このペーパーでは、否定の意味、つまり、特定のプロンプト内の「not」という単語の影響を理解する際の、CLIP などの一般的な VLM の限界を強調します。
否定を含む流暢なプロンプトでの VLM の評価を可能にするために、228,246 枚の画像、真のキャプション、およびそれらに対応する否定されたキャプションを含むデータセットである CC-Neg を提示します。
私たちが提案する CoN-CLIP フレームワークである CLIP の対照的な損失の修正とともに CC-Neg を使用すると、否定の理解が深まります。
このトレーニング パラダイムにより、セマンティクスを確実にエンコードする CoN-CLIP の機能が向上し、8 つのデータセットにわたるゼロショット画像分類のトップ 1 精度が平均 3.85% 向上しました。
さらに、CoN-CLIP は、SugarCREPE などの難しい構成性ベンチマークで CLIP を 4.4% 上回っており、テキスト内のオブジェクト、関係、および属性の新たな構成的理解を示しています。
全体として、私たちの研究は、画像とテキストの間の意味論的な関連付けを強化するデータセットとフレームワークを導入することで、VLM の重大な制限に対処し、計算コストを大幅に削減して改善された大規模基盤モデルを実証し、効率とアクセシビリティを促進します。

要約(オリジナル)

Existing vision-language models (VLMs) treat text descriptions as a unit, confusing individual concepts in a prompt and impairing visual semantic matching and reasoning. An important aspect of reasoning in logic and language is negations. This paper highlights the limitations of popular VLMs such as CLIP, at understanding the implications of negations, i.e., the effect of the word ‘not’ in a given prompt. To enable evaluation of VLMs on fluent prompts with negations, we present CC-Neg, a dataset containing 228,246 images, true captions and their corresponding negated captions. Using CC-Neg along with modifications to the contrastive loss of CLIP, our proposed CoN-CLIP framework, has an improved understanding of negations. This training paradigm improves CoN-CLIP’s ability to encode semantics reliably, resulting in 3.85% average gain in top-1 accuracy for zero-shot image classification across 8 datasets. Further, CoN-CLIP outperforms CLIP on challenging compositionality benchmarks such as SugarCREPE by 4.4%, showcasing emergent compositional understanding of objects, relations, and attributes in text. Overall, our work addresses a crucial limitation of VLMs by introducing a dataset and framework that strengthens semantic associations between images and text, demonstrating improved large-scale foundation models with significantly reduced computational cost, promoting efficiency and accessibility.

arxiv情報

著者 Jaisidh Singh,Ishaan Shrivastava,Mayank Vatsa,Richa Singh,Aparna Bharati
発行日 2024-03-29 17:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク