要約
大規模マルチモーダル モデル (LMM) の最近の進歩により、単一画像による視覚的な質問応答の分野で大きな進歩が見られました。
ただし、これらのモデルは、大規模なフォト アルバムの検索、インターネット上の特定の情報の検索、衛星画像による環境変化の監視など、現実世界のシナリオと同様に、膨大な画像コレクションにまたがるクエリを処理する場合、大きな課題に直面します。
このペーパーでは、マルチ画像ビジュアル質問応答 (MIQA) のタスクについて説明します。大量の画像セットと自然言語クエリが与えられた場合、そのタスクは関連性のある根拠のある応答を生成することです。
私たちは、「Visual Haystacks (VHs)」と呼ばれる新しい公開ベンチマークを提案します。このベンチマークは、関連のない画像のセットに対する視覚的な検索と推論における LMM の能力を評価するために特別に設計されており、そこでは堅牢なクローズドソース モデルであっても大幅に困難であることを実証する包括的な評価が実行されます。
これらの欠点に対処するために、MIRAGE (Multi-Image Retrieval Augmented Generation) を導入します。MIRAGE (Multi-Image Retrieval Augmented Generation) は、ベースライン手法に比べて顕著な効率と精度の向上によって MIQA の課題に対処する、LMM 向けに調整された新しい検索/QA フレームワークです。
私たちの評価によると、MIRAGE は VH ベンチマークでクローズドソースの GPT-4o モデルを最大 11% 上回り、テキスト中心のマルチステージ アプローチと比較して効率が最大 3.4 倍向上します。
要約(オリジナル)
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed ‘Visual Haystacks (VHs),’ specifically designed to evaluate LMMs’ capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.
arxiv情報
著者 | Tsung-Han Wu,Giscard Biamby,Jerome Quenum,Ritwik Gupta,Joseph E. Gonzalez,Trevor Darrell,David M. Chan |
発行日 | 2024-07-18 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google