VisMin: Visual Minimal-Change Understanding

要約

オブジェクト、属性、およびオブジェクト間の関係を詳細に理解することは、視覚言語モデル (VLM) にとって非常に重要です。
既存のベンチマークは主に、画像が与えられた 2 つの非常によく似たキャプションを区別する VLM の機能を評価することに焦点を当てています。
このペーパーでは、VisMin (VisMin) と呼ばれる新しい挑戦的なベンチマークを紹介します。このベンチマークでは、2 つの画像と 2 つのキャプションが与えられた場合に、モデルが画像とキャプションの正しい一致を予測する必要があります。
画像ペアとキャプション ペアには最小限の変更が含まれます。つまり、オブジェクト、属性、数、空間関係のうち、一度に 1 つの側面のみが変更されます。
これらの変更は、オブジェクト、属性 (色、素材、形状など)、数、オブジェクト間の空間関係についてのモデルの理解をテストします。
大規模な言語モデルと普及モデルを使用して自動フレームワークを構築し、その後、人間のアノテーターによる厳密な 4 段階の検証プロセスを実行しました。
実証実験により、現在の VLM は空間関係の理解と計数能力に顕著な欠陥があることが明らかになりました。
また、CLIP と Idefics2 を微調整するための大規模なトレーニング データセットも生成し、ベンチマーク全体の詳細な理解と CLIP の一般的な画像とテキストの配置が大幅に向上していることを示しています。
ベンチマーク、トレーニング データ、微調整されたモデル チェックポイントを含むすべてのリソースを https://vismin.net/ でリリースします。

要約(オリジナル)

Fine-grained understanding of objects, attributes, and relationships between objects is crucial for visual-language models (VLMs). Existing benchmarks primarily focus on evaluating VLMs’ capability to distinguish between two very similar captions given an image. In this paper, we introduce a new, challenging benchmark termed Visual Minimal-Change Understanding (VisMin), which requires models to predict the correct image-caption match given two images and two captions. The image pair and caption pair contain minimal changes, i.e., only one aspect changes at a time from among the following: object, attribute, count, and spatial relation. These changes test the models’ understanding of objects, attributes (such as color, material, shape), counts, and spatial relationships between objects. We built an automatic framework using large language models and diffusion models, followed by a rigorous 4-step verification process by human annotators. Empirical experiments reveal that current VLMs exhibit notable deficiencies in understanding spatial relationships and counting abilities. We also generate a large-scale training dataset to finetune CLIP and Idefics2, showing significant improvements in fine-grained understanding across benchmarks and in CLIP’s general image-text alignment. We release all resources, including the benchmark, training data, and finetuned model checkpoints, at https://vismin.net/.

arxiv情報

著者 Rabiul Awal,Saba Ahmadi,Le Zhang,Aishwarya Agrawal
発行日 2025-01-22 17:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク