Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent

要約

マルチモーダル検索拡張生成 (mRAG) は、マルチモーダル大規模言語モデル (MLLM) に固有の「幻覚」問題を軽減する上で重要な役割を果たします。
有望ではありますが、既存のヒューリスティック mRAG は通常、事前に定義された固定の取得プロセスを使用するため、次の 2 つの問題が発生します。(1) 非適応的な取得クエリ。
(2) オーバーロードされた取得クエリ。
ただし、最も必要な知識は標準的な 2 段階の検索で容易に取得できるため、現在の知識探索型ビジュアル質問応答 (VQA) データセットでは、これらの欠陥を適切に反映することはできません。
データセットのギャップを埋めるために、まず Dyn-VQA データセットを構築します。これは、クエリ、ツール、時間で変化する複雑な知識検索戦略を必要とする 3 種類の「動的」質問で構成されます: (1) 回答が急速に変化する質問。
(2) 多角的な知識を必要とする質問。
(3) マルチホップの質問。
Dyn-VQA の実験では、既存のヒューリスティック mRAG は、厳格な検索プロセスのため、動的な質問に対して十分かつ正確に関連する知識を提供するのに苦労していることが明らかになりました。
そこで、マルチモーダル検索のための最初の自己適応型プランニング エージェントである OmniSearch をさらに提案します。
根底にあるアイデアは、複雑なマルチモーダルな質問を検索アクションを伴うサブ質問チェーンに動的に分解する、問題解決策における人間の行動をエミュレートすることです。
広範な実験により、OmniSearch の有効性が証明され、mRAG を進歩させるための方向性も提供されます。
コードとデータセットは https://github.com/Alibaba-NLP/OmniSearch でオープンソース化されます。

要約(オリジナル)

Multimodal Retrieval Augmented Generation (mRAG) plays an important role in mitigating the ‘hallucination’ issue inherent in multimodal large language models (MLLMs). Although promising, existing heuristic mRAGs typically predefined fixed retrieval processes, which causes two issues: (1) Non-adaptive Retrieval Queries. (2) Overloaded Retrieval Queries. However, these flaws cannot be adequately reflected by current knowledge-seeking visual question answering (VQA) datasets, since the most required knowledge can be readily obtained with a standard two-step retrieval. To bridge the dataset gap, we first construct Dyn-VQA dataset, consisting of three types of ‘dynamic’ questions, which require complex knowledge retrieval strategies variable in query, tool, and time: (1) Questions with rapidly changing answers. (2) Questions requiring multi-modal knowledge. (3) Multi-hop questions. Experiments on Dyn-VQA reveal that existing heuristic mRAGs struggle to provide sufficient and precisely relevant knowledge for dynamic questions due to their rigid retrieval processes. Hence, we further propose the first self-adaptive planning agent for multimodal retrieval, OmniSearch. The underlying idea is to emulate the human behavior in question solution which dynamically decomposes complex multimodal questions into sub-question chains with retrieval action. Extensive experiments prove the effectiveness of our OmniSearch, also provide direction for advancing mRAG. The code and dataset will be open-sourced at https://github.com/Alibaba-NLP/OmniSearch.

arxiv情報

著者 Yangning Li,Yinghui Li,Xinyu Wang,Yong Jiang,Zhen Zhang,Xinran Zheng,Hui Wang,Hai-Tao Zheng,Pengjun Xie,Philip S. Yu,Fei Huang,Jingren Zhou
発行日 2024-11-06 13:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク