要約
このペーパーでは、マルチモーダル大手言語モデル(MLLM)の有効性をマルチモーダル検索ドキュメントからの活用に評価するために設計されたベンチマークであるマルチモーダル検索の高等発電(M^2RAG)を紹介します。
ベンチマークには、画像キャプション、マルチモーダルの質問応答、マルチモーダルの事実検証、画像再ランキングの4つのタスクで構成されています。
すべてのタスクはオープンドメイン設定で設定されているため、マルチモーダルドキュメントコレクションからクエリ関連情報を取得し、RAGモデリングの入力コンテキストとして使用するRAGモデルが必要です。
MLLMSのコンテキスト利用機能を強化するために、マルチモーダルの回収命令チューニング(MM-RAIT)も導入します。これは、マルチモーダルコンテキスト内でMLLMを最適化する命令調整方法です。
私たちの実験は、MM-Raitがマルチモーダルのコンテキストから効果的に学習できるようにすることにより、RAGシステムのパフォーマンスを改善することを示しています。
すべてのデータとコードは、https://github.com/neuir/m2ragで入手できます。
要約(オリジナル)
This paper introduces Multi-Modal Retrieval-Augmented Generation (M^2RAG), a benchmark designed to evaluate the effectiveness of Multi-modal Large Language Models (MLLMs) in leveraging knowledge from multi-modal retrieval documents. The benchmark comprises four tasks: image captioning, multi-modal question answering, multi-modal fact verification, and image reranking. All tasks are set in an open-domain setting, requiring RAG models to retrieve query-relevant information from a multi-modal document collection and use it as input context for RAG modeling. To enhance the context utilization capabilities of MLLMs, we also introduce Multi-Modal Retrieval-Augmented Instruction Tuning (MM-RAIT), an instruction tuning method that optimizes MLLMs within multi-modal contexts. Our experiments show that MM-RAIT improves the performance of RAG systems by enabling them to effectively learn from multi-modal contexts. All data and code are available at https://github.com/NEUIR/M2RAG.
arxiv情報
著者 | Zhenghao Liu,Xingsheng Zhu,Tianshuo Zhou,Xinyi Zhang,Xiaoyuan Yi,Yukun Yan,Yu Gu,Ge Yu,Maosong Sun |
発行日 | 2025-02-24 16:25:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google