要約
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、視覚言語のタスクにおいて顕著な能力を実証していますが、正確な推論に正確な視覚的焦点が必要な視覚中心のシナリオと格闘していることがよくあります。
この論文では、新しい視覚的注意の接地メカニズムでこれらの制限に対処するためにアーガスを紹介します。
私たちのアプローチは、視覚的なチェーンのシグナルとしてオブジェクト中心の接地を採用しており、マルチモーダル推論タスク中に、より効果的な目標調整された視覚的注意を可能にします。
多様なベンチマークでの評価は、アーガスがマルチモーダル推論タスクとオブジェクト接地タスクの参照の両方に優れていることを示しています。
広範な分析では、アーガスのさまざまな設計の選択肢をさらに検証し、MLLMにおける明示的な言語誘導視覚領域の関与領域の関与の有効性を明らかにし、視覚中心の観点からマルチモーダルインテリジェンスを進めることの重要性を強調しています。
プロジェクトページ:https://yunzeman.github.io/argus/
要約(オリジナル)
Recent advances in multimodal large language models (MLLMs) have demonstrated remarkable capabilities in vision-language tasks, yet they often struggle with vision-centric scenarios where precise visual focus is needed for accurate reasoning. In this paper, we introduce Argus to address these limitations with a new visual attention grounding mechanism. Our approach employs object-centric grounding as visual chain-of-thought signals, enabling more effective goal-conditioned visual attention during multimodal reasoning tasks. Evaluations on diverse benchmarks demonstrate that Argus excels in both multimodal reasoning tasks and referring object grounding tasks. Extensive analysis further validates various design choices of Argus, and reveals the effectiveness of explicit language-guided visual region-of-interest engagement in MLLMs, highlighting the importance of advancing multimodal intelligence from a visual-centric perspective. Project page: https://yunzeman.github.io/argus/
arxiv情報
著者 | Yunze Man,De-An Huang,Guilin Liu,Shiwei Sheng,Shilong Liu,Liang-Yan Gui,Jan Kautz,Yu-Xiong Wang,Zhiding Yu |
発行日 | 2025-05-29 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google