Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment


大規模な言語モデルと視覚的根拠付けモデルを活用して、特定の画像に対するもっともらしい位置ずれしたキャプションと、対応するテキスト説明と視覚的インジケーターを保持するトレーニング セットを自動的に構築します。
また、グラウンドトゥルースのテキストと視覚的な位置ずれの注釈を含む、人間が厳選した新しいテスト セットも公開します。
私たちのメソッド コードと人間が厳選したテスト セットは、https://mismatch-quest.github.io/ で入手できます。


While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. We leverage large language models and visual grounding models to automatically construct a training set that holds plausible misaligned captions for a given image and corresponding textual explanations and visual indicators. We also publish a new human curated test set comprising ground-truth textual and visual misalignment annotations. Empirical results show that fine-tuning vision language models on our training set enables them to articulate misalignments and visually indicate them within images, outperforming strong baselines both on the binary alignment classification and the explanation generation tasks. Our method code and human curated test set are available at: https://mismatch-quest.github.io/


著者 Brian Gordon,Yonatan Bitton,Yonatan Shafir,Roopal Garg,Xi Chen,Dani Lischinski,Daniel Cohen-Or,Idan Szpektor
発行日 2024-07-17 11:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク