Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding

要約

CLIP などの視覚言語モデル (VLM) は、強力な画像テキスト理解能力を示し、ゼロショット画像分類、画像テキスト検索、テキストから画像への生成など、いくつかの下流タスクの進歩を促進します。
ただし、既存の VLM の構成推論能力は依然として標準以下です。
この制限の根本は、事前トレーニング データセット内の画像とキャプション間の不適切な位置合わせにあります。
さらに、現在の対照的な学習目標は、関係、アクション、属性などのきめ細かい基礎コンポーネントに焦点を当てることができず、その結果、「言葉の袋」表現が生じます。
VLM での構成推論を改善するためのシンプルで効果的な方法を紹介します。
私たちの方法は、標準的な画像とテキストの対照学習フレームワークを改良および拡張することで、利用可能なデータセットをより有効に活用します。
私たちのアプローチでは、特定の注釈は必要なく、追加のパラメーターも発生しません。
CLIP と統合すると、当社の技術は 5 つの視覚言語構成ベンチマーク全体で最先端のベースラインと比べて顕著な改善をもたらします。
コードは https://github.com/lezhang7/Enhance-FineGrained でオープンソース化されています。

要約(オリジナル)

Vision-Language Models (VLMs), such as CLIP, exhibit strong image-text comprehension abilities, facilitating advances in several downstream tasks such as zero-shot image classification, image-text retrieval, and text-to-image generation. However, the compositional reasoning abilities of existing VLMs remains subpar. The root of this limitation lies in the inadequate alignment between the images and captions in the pretraining datasets. Additionally, the current contrastive learning objective fails to focus on fine-grained grounding components like relations, actions, and attributes, resulting in ‘bag-of-words’ representations. We introduce a simple and effective method to improve compositional reasoning in VLMs. Our method better leverages available datasets by refining and expanding the standard image-text contrastive learning framework. Our approach does not require specific annotations and does not incur extra parameters. When integrated with CLIP, our technique yields notable improvement over state-of-the-art baselines across five vision-language compositional benchmarks. We open-source our code at https://github.com/lezhang7/Enhance-FineGrained.

arxiv情報

著者 Le Zhang,Rabiul Awal,Aishwarya Agrawal
発行日 2024-04-25 15:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク