BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

要約

ビジョン言語モデル (VLM) は、ビジュアル エンコーダーとラージ言語モデル (LLM) の組み合わせを通じて世界を認識します。
大規模なビジョンテキスト データセットで事前トレーニングされたビジュアル エンコーダーは、ビジュアル データにゼロショット汎化を提供し、LLM は VLM に高い推論能力を与えます。
これにより、VLM は微調整することなく幅広いベンチマークで高いパフォーマンスを達成し、ゼロまたは数ショットの能力を発揮します。
しかし、最近の研究では、VLM は幻覚に対して脆弱であることが示されています。
この望ましくない動作により、信頼性と信頼性が低下するため、ユーザーは VLM からの出力を完全に信頼できなくなります。
信頼性を高め、VLM の幻覚にうまく対処するために、BEfore-AFter 幻覚データセット (BEAF) と呼ばれる新しい評価データセットを厳選し、新しい指標: True Understanding (TU)、Ignorance (IG)、StuBbornness (SB)、
そしてインデシジョン(ID)。
質問と回答の構築のみに焦点を当てた以前の研究とは異なり、私たちのベンチマークの重要なアイデアは、画像編集モデルによって視覚的なシーン情報を操作し、シーンの変化に基づいてメトリクスを設計することです。
これにより、変化を認識する能力を観察することで、VLM が特定のシーンを正しく理解しているかどうかを明確に評価できます。
また、ビジョンとテキストという 2 軸のビューによって、画像上のオブジェクトの関係も視覚化します。
データセットを使用して VLM を評価したところ、私たちの指標によって、これまで報告されていなかった VLM 幻覚のさまざまな側面が明らかになることがわかりました。
プロジェクトページ: \url{https://beafbench.github.io/}

要約(オリジナル)

Vision language models (VLMs) perceive the world through a combination of a visual encoder and a large language model (LLM). The visual encoder, pre-trained on large-scale vision-text datasets, provides zero-shot generalization to visual data, and the LLM endows its high reasoning ability to VLMs. It leads VLMs to achieve high performance on wide benchmarks without fine-tuning, exhibiting zero or few-shot capability. However, recent studies show that VLMs are vulnerable to hallucination. This undesirable behavior degrades reliability and credibility, thereby making users unable to fully trust the output from VLMs. To enhance trustworthiness and better tackle the hallucination of VLMs, we curate a new evaluation dataset, called the BEfore-AFter hallucination dataset (BEAF), and introduce new metrics: True Understanding (TU), IGnorance (IG), StuBbornness (SB), and InDecision (ID). Unlike prior works that focus only on constructing questions and answers, the key idea of our benchmark is to manipulate visual scene information by image editing models and to design the metrics based on scene changes. This allows us to clearly assess whether VLMs correctly understand a given scene by observing the ability to perceive changes. We also visualize image-wise object relationship by virtue of our two-axis view: vision and text. Upon evaluating VLMs with our dataset, we observed that our metrics reveal different aspects of VLM hallucination that have not been reported before. Project page: \url{https://beafbench.github.io/}

arxiv情報

著者 Moon Ye-Bin,Nam Hyeon-Woo,Wonseok Choi,Tae-Hyun Oh
発行日 2024-07-18 12:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク