要約
この論文では、視覚情報がモデルの内部常識知識と矛盾する、マルチモーダル大規模言語モデル (MLLM) における常識レベルの視覚と知識の矛盾の問題を調査します (図 1 を参照)。
この問題を研究するために、人間参加型の品質管理を強化した自動パイプラインを導入し、MLLM における競合のシミュレーションと評価を目的としたベンチマークを確立します。
このパイプラインを利用して、374 枚のオリジナル画像と 1,122 個の高品質な質問と回答 (QA) のペアで構成される診断ベンチマークを作成しました。
このベンチマークは 2 種類の競合ターゲットと 3 つの質問難易度をカバーしており、徹底的な評価ツールを提供します。
このベンチマークを通じて、さまざまなモデル ファミリにわたる 9 つの代表的な MLLM の競合解決機能を評価し、テキスト クエリへの顕著な過度の依存を発見しました。
これらの発見に基づいて、我々は、矛盾するテキスト知識よりも視覚データを好むMLLMの能力を著しく強化する、新しいプロンプト戦略「フォーカスオンビジョン」(FoV)を提案する。
私たちの詳細な分析と新しく提案された戦略は、MLLM におけるビジョンと知識の矛盾の理解と軽減を大幅に前進させます。
データとコードは公開されています。
要約(オリジナル)
This paper explores the problem of commonsense-level vision-knowledge conflict in Multimodal Large Language Models (MLLMs), where visual information contradicts model’s internal commonsense knowledge (see Figure 1). To study this issue, we introduce an automated pipeline, augmented with human-in-the-loop quality control, to establish a benchmark aimed at simulating and assessing the conflicts in MLLMs. Utilizing this pipeline, we have crafted a diagnostic benchmark comprising 374 original images and 1,122 high-quality question-answer (QA) pairs. This benchmark covers two types of conflict target and three question difficulty levels, providing a thorough assessment tool. Through this benchmark, we evaluate the conflict-resolution capabilities of nine representative MLLMs across various model families and find a noticeable over-reliance on textual queries. Drawing on these findings, we propose a novel prompting strategy, ‘Focus-on-Vision’ (FoV), which markedly enhances MLLMs’ ability to favor visual data over conflicting textual knowledge. Our detailed analysis and the newly proposed strategy significantly advance the understanding and mitigating of vision-knowledge conflicts in MLLMs. The data and code are made publicly available.
arxiv情報
著者 | Xiaoyuan Liu,Wenxuan Wang,Youliang Yuan,Jen-tse Huang,Qiuzhi Liu,Pinjia He,Zhaopeng Tu |
発行日 | 2024-10-10 17:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google