mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA

要約

高度なマルチモーダル大規模言語モデル (MLLM) は、INFOSEEK や Encyclopedic-VQA などの最近のナレッジベースの VQA タスクに苦戦しています。これは、ナレッジの範囲が限られて固定されているためであり、多くの場合、曖昧で不正確な応答につながります。
したがって、マルチモーダル検索拡張生成 (mRAG) は、MLLM に包括的で最新の知識を提供するために自然に導入され、知識の範囲を効果的に拡大します。
しかし、現在の mRAG 方法には、次のような固有の欠点があります。 1) 外部知識が必要ない場合でも検索を実行します。
2) クエリを裏付ける証拠の特定の欠如。
3) 追加の情報フィルタリング モジュールまたはルールによるモデルの複雑さの増加。
これらの欠点に対処するために、\textbf{m}ultimodal \textbf{R}etrieval-\textbf{R}eflection-\textbf{A}ugmented \textbf{G}eneration (mR$^2$) と呼ばれる新しい一般化されたフレームワークを提案します。
AG) は、適応的な検索と有用な情報の位置特定を実現し、実装が簡単な 2 つのリフレクション操作を通じて回答を可能にし、モデルの高度な複雑化を防ぎます。
mR$^2$AG では、Retrieval-Reflection は、さまざまなユーザー クエリを区別し、冗長な検索呼び出しを回避するように設計されており、Relevance-Reflection は、MLLM が取得されたコンテンツの有益な証拠を見つけて、それに応じて回答を生成できるように導入されています。
さらに、mR$^2$AG は、提案された mR$^2$AG 命令チューニング データセット (mR$^2$AG-IT) で効率的に微調整することで、よく訓練された MLLM に統合できます。
mR$^2$AG は、幅広い範囲にわたるベース MLLM の卓越した機能を維持しながら、INFOSEEK および Encyclopedic-VQA で最先端の MLLM (例: GPT-4v/o) や RAG ベースの MLLM よりも優れたパフォーマンスを発揮します。
視覚に依存するタスク。

要約(オリジナル)

Advanced Multimodal Large Language Models (MLLMs) struggle with recent Knowledge-based VQA tasks, such as INFOSEEK and Encyclopedic-VQA, due to their limited and frozen knowledge scope, often leading to ambiguous and inaccurate responses. Thus, multimodal Retrieval-Augmented Generation (mRAG) is naturally introduced to provide MLLMs with comprehensive and up-to-date knowledge, effectively expanding the knowledge scope. However, current mRAG methods have inherent drawbacks, including: 1) Performing retrieval even when external knowledge is not needed. 2) Lacking of identification of evidence that supports the query. 3) Increasing model complexity due to additional information filtering modules or rules. To address these shortcomings, we propose a novel generalized framework called \textbf{m}ultimodal \textbf{R}etrieval-\textbf{R}eflection-\textbf{A}ugmented \textbf{G}eneration (mR$^2$AG), which achieves adaptive retrieval and useful information localization to enable answers through two easy-to-implement reflection operations, preventing high model complexity. In mR$^2$AG, Retrieval-Reflection is designed to distinguish different user queries and avoids redundant retrieval calls, and Relevance-Reflection is introduced to guide the MLLM in locating beneficial evidence of the retrieved content and generating answers accordingly. In addition, mR$^2$AG can be integrated into any well-trained MLLM with efficient fine-tuning on the proposed mR$^2$AG Instruction-Tuning dataset (mR$^2$AG-IT). mR$^2$AG significantly outperforms state-of-the-art MLLMs (e.g., GPT-4v/o) and RAG-based MLLMs on INFOSEEK and Encyclopedic-VQA, while maintaining the exceptional capabilities of base MLLMs across a wide range of Visual-dependent tasks.

arxiv情報

著者 Tao Zhang,Ziqi Zhang,Zongyang Ma,Yuxin Chen,Zhongang Qi,Chunfeng Yuan,Bing Li,Junfu Pu,Yuxuan Zhao,Zehua Xie,Jin Ma,Ying Shan,Weiming Hu
発行日 2024-11-22 16:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク