Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative Mining

要約

現代の大規模視覚言語モデル (VLM) は強力な表現能力を示し、画像やテキストの理解タスクを強化するために遍在しています。
彼らは多くの場合、インターネットから収集した大規模で多様な画像と対応するテキスト キャプションのコーパスに対して対照的な方法でトレーニングされます。
それにもかかわらず、VLM は、オブジェクトとその属性の複雑な相互作用をきめ細かく理解する必要がある構成推論タスクに苦戦することがよくあります。
この失敗は 2 つの主な要因に起因すると考えられます。 1) 対照的なアプローチは伝統的に、既存のデータセットから否定的な例をマイニングすることに焦点を当ててきました。
ただし、マイニングされたネガティブな例をモデルがポジティブな例から区別するのは難しくない可能性があります。
マイニングの代替案は、ネガティブ サンプルの生成です 2) しかし、既存の生成アプローチは主に、特定の画像に関連付けられたハード ネガティブ テキストを生成することに焦点を当てています。
他の方向のマイニング、つまり、特定のテキストに関連付けられたネガティブ画像サンプルの生成は無視されています。
これら両方の制限を克服するために、両方向でマイニングを行うだけでなく、両方のモダリティ、つまり画像とテキストで困難なネガティブ サンプルを生成するフレームワークを提案します。
これらの生成ハード ネガティブ サンプルを活用することで、マルチモーダルな構成推論を含むタスクにおける VLM のパフォーマンスが大幅に向上します。
コードとデータセットは https://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.html でリリースされています。

要約(オリジナル)

Contemporary large-scale visual language models (VLMs) exhibit strong representation capacities, making them ubiquitous for enhancing image and text understanding tasks. They are often trained in a contrastive manner on a large and diverse corpus of images and corresponding text captions scraped from the internet. Despite this, VLMs often struggle with compositional reasoning tasks which require a fine-grained understanding of the complex interactions of objects and their attributes. This failure can be attributed to two main factors: 1) Contrastive approaches have traditionally focused on mining negative examples from existing datasets. However, the mined negative examples might not be difficult for the model to discriminate from the positive. An alternative to mining would be negative sample generation 2) But existing generative approaches primarily focus on generating hard negative texts associated with a given image. Mining in the other direction, i.e., generating negative image samples associated with a given text has been ignored. To overcome both these limitations, we propose a framework that not only mines in both directions but also generates challenging negative samples in both modalities, i.e., images and texts. Leveraging these generative hard negative samples, we significantly enhance VLMs’ performance in tasks involving multimodal compositional reasoning. Our code and dataset are released at https://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.html.

arxiv情報

著者 Ugur Sahin,Hang Li,Qadeer Khan,Daniel Cremers,Volker Tresp
発行日 2023-11-07 13:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク