要約
この論文では、マルチモーダル検索拡張マルチモーダル生成 (M$^2$RAG) の興味深いタスクを調査します。
このタスクでは、基礎モデルがテキストと画像が混在するマルチモーダル Web ページを閲覧し、ユーザーのクエリを解決するためのマルチモーダル応答を生成する必要があります。これにより、情報密度と可読性が向上します。
M$^2$RAG タスクの初期研究段階を考慮すると、体系的な研究と分析が不足しています。
このギャップを埋めるために、既存の基盤モデルの機能を分析するための一連のテキストモーダル メトリックとマルチモーダル メトリックを備えた M$^2$RAG タスクのベンチマークを構築します。
さらに、ベンチマークの総合評価結果に基づいて、このタスクを達成するための基礎モデルのいくつかの効果的な方法も提案します。
広範な実験結果により、さらなる研究に値するいくつかの興味深い現象が明らかになりました。
要約(オリジナル)
This paper investigates an intriguing task of Multi-modal Retrieval Augmented Multi-modal Generation (M$^2$RAG). This task requires foundation models to browse multi-modal web pages, with mixed text and images, and generate multi-modal responses for solving user queries, which exhibits better information density and readability. Given the early researching stage of M$^2$RAG task, there is a lack of systematic studies and analysis. To fill this gap, we construct a benchmark for M$^2$RAG task, equipped with a suite of text-modal metrics and multi-modal metrics to analyze the capabilities of existing foundation models. Besides, we also propose several effective methods for foundation models to accomplish this task, based on the comprehensive evaluation results on our benchmark. Extensive experimental results reveal several intriguing phenomena worth further research.
arxiv情報
著者 | Zi-Ao Ma,Tian Lan,Rong-Cheng Tu,Yong Hu,Heyan Huang,Xian-Ling Mao |
発行日 | 2024-11-25 13:20:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google