MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

要約

マルチモーダル大規模言語モデル (MLLM) は、テキスト、画像、オーディオ、ビデオなどの複数のデータ モダリティにわたるコンテンツの処理と生成において優れた機能を実証しています。
ただし、MLLM の重大な欠点は、静的なトレーニング データに依存しているため、情報が古くなり、状況認識が限定されてしまうことです。
この静的な性質により、特に動的または急速に進化する状況において、正確で最新の応答を提供する能力が妨げられます。
マルチモーダル検索拡張生成 (マルチモーダル RAG) の統合は有望な解決策を提供しますが、システムは必然的に、粗粒度 (クエリ キャプション) と細かい粒度の 2 種類のノイズを含む、多粒度のノイズ対応 (MNC) 問題に遭遇することになります。
粒状 (クエリイメージ)。
このノイズは正確な検索と生成を妨げます。
この研究では、これらの制限に対処するために、知識を強化した再ランキングとノイズ注入トレーニングを備えた新しいフレームワーク \textbf{RagLLaVA} を提案します。
シンプルかつ効果的な命令テンプレートを使用して MLLM を命令調整して、そのランキング機能を誘導し、上位 k 個の取得画像を正確にフィルタリングするリランカーとして機能させます。
生成では、データおよびトークン レベルでのトレーニング中に視覚的なノイズを注入して、ジェネレーターの堅牢性を強化します。
与えられたクエリに答えるために画像を取得して推論する必要がある 2 つのデータセットのサブセットに対して広範な実験が行われます。
私たちの結果は、RagLLaVA が正確に取得し、ロバストに生成する点で優れていることを示しています。
コードとモデルは https://github.com/IDEA-FinAI/RagLLaVA で入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in processing and generating content across multiple data modalities, including text, images, audio, and video. However, a significant drawback of MLLMs is their reliance on static training data, leading to outdated information and limited contextual awareness. This static nature hampers their ability to provide accurate, up-to-date responses, particularly in dynamic or rapidly evolving contexts. Integrating Multimodal Retrieval-augmented Generation (Multimodal RAG) offers a promising solution, but the system would inevitably encounter the multi-granularity noisy correspondence (MNC) problem, which involves two types of noise: coarse-grained (query-caption) and fine-grained (query-image). This noise hinders accurate retrieval and generation. In this work, we propose \textbf{RagLLaVA}, a novel framework with knowledge-enhanced reranking and noise-injected training, to address these limitations. We instruction-tune the MLLM with a simple yet effective instruction template to induce its ranking ability and serve it as a reranker to precisely filter the top-k retrieved images. For generation, we inject visual noise during training at the data and token levels to enhance the generator’s robustness. Extensive experiments are conducted on the subsets of two datasets that require retrieving and reasoning over images to answer a given query. Our results demonstrate the superiority of RagLLaVA in retrieving accurately and generating robustly. Code and models are available at https://github.com/IDEA-FinAI/RagLLaVA.

arxiv情報

著者 Zhanpeng Chen,Chengjin Xu,Yiyan Qi,Jian Guo
発行日 2024-07-31 08:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク