Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

要約

既存の画像とテキストの位置合わせモデルは、高品質のバイナリ評価には達していますが、位置ずれの正確な原因を特定するには至っていません。
この論文では、テキストと画像のペア間で検出された位置ずれについて、詳細なテキストと視覚的な説明を提供する方法を紹介します。
大規模な言語モデルと視覚的根拠付けモデルを活用して、特定の画像に対するもっともらしい位置ずれしたキャプションと、対応するテキスト説明と視覚的インジケーターを保持するトレーニング セットを自動的に構築します。
また、グラウンドトゥルースのテキストと視覚的な位置ずれの注釈を含む、人間が厳選した新しいテスト セットも公開します。
経験的な結果は、トレーニングセットで視覚言語モデルを微調整することにより、不整合を明確にし、画像内で視覚的に示すことが可能になり、バイナリアライメント分類と説明生成タスクの両方で強力なベースラインを上回るパフォーマンスを示すことを示しています。
私たちのメソッド コードと人間が厳選したテスト セットは、https://mismatch-quest.github.io/ で入手できます。

要約(オリジナル)

While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. We leverage large language models and visual grounding models to automatically construct a training set that holds plausible misaligned captions for a given image and corresponding textual explanations and visual indicators. We also publish a new human curated test set comprising ground-truth textual and visual misalignment annotations. Empirical results show that fine-tuning vision language models on our training set enables them to articulate misalignments and visually indicate them within images, outperforming strong baselines both on the binary alignment classification and the explanation generation tasks. Our method code and human curated test set are available at: https://mismatch-quest.github.io/

arxiv情報

著者 Brian Gordon,Yonatan Bitton,Yonatan Shafir,Roopal Garg,Xi Chen,Dani Lischinski,Daniel Cohen-Or,Idan Szpektor
発行日 2024-07-17 11:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク