Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG

要約

高解像度(HR)画像認識は、マルチモーダル大手言語モデル(MLLM)の重要な課題のままです。
既存の方法の限界を克服するために、この論文は、以前の専用のヒューリスティックアプローチから離れ、MLLMの長いコンテキスト能力を強化することにより、HRの知覚に対する最も基本的なアイデアを再検討します。
この目的に向けて、このペーパーでは、HRの認識の課題に対処するためのRAGの使用を調査する最初の研究を提示します。
具体的には、提案された空間認識レイアウトを使用して空間コンテキストを保存しながら、関連する画像クロップを取得および融合するトレーニングフリーのフレームワークである検索された認識(RAP)を提案します。
さまざまなタスクに対応するために、提案された検索普及検索(再検索)は、モデルの信頼性と検索スコアに基づいて、最適な作物の数を動的に選択します。
HRベンチマークでの実験結果は、RAPの有効性を示しており、LLAVA-V1.5-13Bは$ V^*$ベンチで43%の改善、HRベンチで19%を達成しています。

要約(オリジナル)

High-resolution (HR) image perception remains a key challenge in multimodal large language models (MLLMs). To overcome the limitations of existing methods, this paper shifts away from prior dedicated heuristic approaches and revisits the most fundamental idea to HR perception by enhancing the long-context capability of MLLMs, driven by recent advances in long-context techniques like retrieval-augmented generation (RAG) for general LLMs. Towards this end, this paper presents the first study exploring the use of RAG to address HR perception challenges. Specifically, we propose Retrieval-Augmented Perception (RAP), a training-free framework that retrieves and fuses relevant image crops while preserving spatial context using the proposed Spatial-Awareness Layout. To accommodate different tasks, the proposed Retrieved-Exploration Search (RE-Search) dynamically selects the optimal number of crops based on model confidence and retrieval scores. Experimental results on HR benchmarks demonstrate the significant effectiveness of RAP, with LLaVA-v1.5-13B achieving a 43% improvement on $V^*$ Bench and 19% on HR-Bench.

arxiv情報

著者 Wenbin Wang,Yongcheng Jing,Liang Ding,Yingjie Wang,Li Shen,Yong Luo,Bo Du,Dacheng Tao
発行日 2025-05-22 15:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク