MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

要約

既存のマルチモーダル検索ベンチマークは、モデルが外部のテキスト知識を取得して質問応答に利用できるかどうかを評価することに主に焦点を当てています。
ただし、視覚的な情報を取得する方がテキスト データよりも有益である、またはアクセスしやすいシナリオもあります。
この論文では、マルチモーダル検索拡張生成ベンチマーク MRAG-Bench を紹介します。このベンチマークでは、視覚的に拡張された知識がテキストの知識よりも優れているシナリオ (たとえば、さまざまな視点からのより多くの画像) を体系的に特定して分類します。
MRAG-Bench は、9 つ​​の異なるシナリオにわたる 16,130 枚の画像と人間による注釈が付けられた 1,353 個の多肢選択式の質問で構成されています。
MRAG-Bench を使用して、10 のオープンソースと 4 つの独自の大規模ビジョン言語モデル (LVLM) の評価を実施します。
私たちの結果は、すべての LVLM がテキスト知識と比較して画像で強化された場合に大きな改善を示し、MRAG-Bench が視覚中心であることを裏付けています。
さらに、MRAG-Bench を使用して広範な分析を実施し、検索拡張 LVLM に関する貴重な洞察を提供します。
特に、最もパフォーマンスの高いモデルである GPT-4o は、取得した知識を効果的に活用するという課題に直面しており、人間の参加者で観察された 33.16% の改善とは対照的に、グラウンドトゥルース情報では 5.82% の改善しか達成できませんでした。
これらの調査結果は、取得した視覚的知識をより効果的に活用する LVLM の能力を高めるようコミュニティを奨励する上で、MRAG-Bench の重要性を強調しています。

要約(オリジナル)

Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs’ ability to utilize retrieved visual knowledge more effectively.

arxiv情報

著者 Wenbo Hu,Jia-Chen Gu,Zi-Yi Dou,Mohsen Fayyaz,Pan Lu,Kai-Wei Chang,Nanyun Peng
発行日 2024-10-10 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク