Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

要約

検索拡張生成 (RAG) を備えた大規模言語モデルは、外部知識ベースを活用して応答能力を強化することを目的とした急成長分野です。
言語のみのモデルを使用した RAG の適用は広く検討されていますが、マルチモーダルな視覚言語モデルへの RAG の適応はまだ初期段階にあります。
マルチモーダル RAG の主な目的は、単なる回答生成を超えて、関連するクエリに応答して推論するモデルの能力を育成することです。
この目的を達成するために、RMR (Retrieval Meets Reasoning) という名前の新しいマルチモーダル RAG フレームワークを導入します。
RMR フレームワークは、バイモーダル検索モジュールを採用して最も関連性の高い質問と回答のペアを特定し、それがマルチモーダル推論プロセスの足場として機能します。
このトレーニング不要のアプローチは、モデルが取得されたコンテンツに固有の推論プロセスに深く関与することを促進するだけでなく、正確で豊かに解釈可能な回答の生成も促進します。
驚くべきことに、RMR は、小学校および高等学校の科学カリキュラムから収集された ScienceQA データセットのみを利用することで、A-OKVQA、MMBench、SEED などのベンチマーク データセットの範囲全体にわたってさまざまな視覚言語モデルのパフォーマンスを大幅に向上させます。
これらの結果は、視覚言語モデルの推論能力を向上させるための、私たちのマルチモーダルな検索および推論メカニズムの大きな可能性を強調しています。

要約(オリジナル)

Large language models equipped with retrieval-augmented generation (RAG) represent a burgeoning field aimed at enhancing answering capabilities by leveraging external knowledge bases. Although the application of RAG with language-only models has been extensively explored, its adaptation into multimodal vision-language models remains nascent. Going beyond mere answer generation, the primary goal of multimodal RAG is to cultivate the models’ ability to reason in response to relevant queries. To this end, we introduce a novel multimodal RAG framework named RMR (Retrieval Meets Reasoning). The RMR framework employs a bi-modal retrieval module to identify the most relevant question-answer pairs, which then serve as scaffolds for the multimodal reasoning process. This training-free approach not only encourages the model to engage deeply with the reasoning processes inherent in the retrieved content but also facilitates the generation of answers that are precise and richly interpretable. Surprisingly, utilizing solely the ScienceQA dataset, collected from elementary and high school science curricula, RMR significantly boosts the performance of various vision-language models across a spectrum of benchmark datasets, including A-OKVQA, MMBench, and SEED. These outcomes highlight the substantial potential of our multimodal retrieval and reasoning mechanism to improve the reasoning capabilities of vision-language models.

arxiv情報

著者 Cheng Tan,Jingxuan Wei,Linzhuang Sun,Zhangyang Gao,Siyuan Li,Bihui Yu,Ruifeng Guo,Stan Z. Li
発行日 2024-05-31 14:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク