Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark

要約

大規模なマルチモーダルモデル(LMM)は、単一の画像に対して視覚的な質問を回答することで大きな進歩を遂げました。
長いコンテキストLMMのような最近の進歩により、彼らはより大きく、または複数の画像を摂取することができました。
ただし、多数の視覚トークンを処理する能力は、特にフォトアルバム検索や衛星画像分析などの実際のアプリケーションで、マルチイメージ質問応答(MIQA)の効果的な検索と推論を保証するものではありません。
この作業では、最初にロングコンテキストLMMの現在のベンチマークの制限を評価します。
これらの制限に対処し、新しい視覚中心の長いコンテキストベンチマーク「Visual Haystacks(VHS)」を導入します。
VHS上のオープンソースと独自のモデルの両方を包括的に評価し、これらのモデルが、潜在的に無関係な画像全体で推論するときに苦労し、クロスイメージの推論でパフォーマンスが低下し、コンテキストウィンドウ内の重要な情報の配置に基づいてバイアスを示すことを実証します。
ソリューションに向けて、Mirage(マルチイメージ検索拡張生成)を導入します。これは、現代モデルの1Kイメージの制限をはるかに超える40g A100 GPUで最大10kの画像を処理するオープンソースの軽量の視覚的距離フレームワークです。
Mirageは、VHSの既存のオープンソースLMMよりも最大13%のパフォーマンス改善を示し、RetVQAマルチイメージQAベンチマークに新しい最先端を設定し、最先端のLMMを使用してシングルイメージQAで競争力のあるパフォーマンスを達成します。
データセット、モデル、およびコードは、https://visual-haystacks.github.ioで入手できます。

要約(オリジナル)

Large Multimodal Models (LMMs) have made significant strides in visual question-answering for single images. Recent advancements like long-context LMMs have allowed them to ingest larger, or even multiple, images. However, the ability to process a large number of visual tokens does not guarantee effective retrieval and reasoning for multi-image question answering (MIQA), especially in real-world applications like photo album searches or satellite imagery analysis. In this work, we first assess the limitations of current benchmarks for long-context LMMs. We address these limitations by introducing a new vision-centric, long-context benchmark, ‘Visual Haystacks (VHs)’. We comprehensively evaluate both open-source and proprietary models on VHs, and demonstrate that these models struggle when reasoning across potentially unrelated images, perform poorly on cross-image reasoning, as well as exhibit biases based on the placement of key information within the context window. Towards a solution, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), an open-source, lightweight visual-RAG framework that processes up to 10k images on a single 40G A100 GPU — far surpassing the 1k-image limit of contemporary models. MIRAGE demonstrates up to 13% performance improvement over existing open-source LMMs on VHs, sets a new state-of-the-art on the RetVQA multi-image QA benchmark, and achieves competitive performance on single-image QA with state-of-the-art LMMs. Our dataset, model, and code are available at: https://visual-haystacks.github.io.

arxiv情報

著者 Tsung-Han Wu,Giscard Biamby,Jerome Quenum,Ritwik Gupta,Joseph E. Gonzalez,Trevor Darrell,David M. Chan
発行日 2025-03-11 17:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク