Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks

要約

深い推論は、特に順次のマルチモーダル理解を必要とする視覚中心のシナリオで、複雑なタスクを解決するための基本です。
ただし、既存のベンチマークは通常、エージェントを完全に合成、単一ターンクエリ、限られた視覚モダリティを持つエージェントを評価し、実際の設定で必要な複数のステップで推論品質を評価するフレームワークを欠いています。
これに対処するために、視覚中心のエージェントを評価するための大規模なベンチマークであるAgent-Xを紹介します。
エージェント – Xには、画像、マルチイメージの比較、ビデオ、および教育テキストなど、本物の視覚的コンテキストを備えた828のエージェントタスクを備えています。
これらのタスクは、一般的な視覚的推論、Webブラウジング、セキュリティと監視、自律運転、スポーツ、数学の推論の6つの主要なエージェント環境に及びます。
当社のベンチマークでは、エージェントがこれらの多様な設定で明示的な段階的な意思決定とツールの使用を統合する必要があります。
さらに、各推論ステップの正確性と論理的一貫性、およびタスク全体のツール使用の有効性を評価する、微調整されたステップレベルの評価フレームワークを提案します。
私たちの結果は、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、マルチステップビジョンタスクを解決し、50%未満のフルチェーンの成功を達成するのに苦労していることを明らかにしています。
これらの調査結果は、現在のLMMの推論とツール使用機能の重要なボトルネックを強調し、視力中心のエージェント推論モデルの将来の研究方向を特定します。
データとコードは、https://github.com/mbzuai-oryx/agent-xで公開されています

要約(オリジナル)

Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that demand sequential, multimodal understanding. However, existing benchmarks typically evaluate agents with fully synthetic, single-turn queries, limited visual modalities, and lack a framework to assess reasoning quality over multiple steps as required in real-world settings. To address this, we introduce Agent-X, a large-scale benchmark for evaluating vision-centric agents multi-step and deep reasoning capabilities in real-world, multimodal settings. Agent- X features 828 agentic tasks with authentic visual contexts, including images, multi-image comparisons, videos, and instructional text. These tasks span six major agentic environments: general visual reasoning, web browsing, security and surveillance, autonomous driving, sports, and math reasoning. Our benchmark requires agents to integrate tool use with explicit, stepwise decision-making in these diverse settings. In addition, we propose a fine-grained, step-level evaluation framework that assesses the correctness and logical coherence of each reasoning step and the effectiveness of tool usage throughout the task. Our results reveal that even the best-performing models, including GPT, Gemini, and Qwen families, struggle to solve multi-step vision tasks, achieving less than 50% full-chain success. These findings highlight key bottlenecks in current LMM reasoning and tool-use capabilities and identify future research directions in vision-centric agentic reasoning models. Our data and code are publicly available at https://github.com/mbzuai-oryx/Agent-X

arxiv情報

著者 Tajamul Ashraf,Amal Saqib,Hanan Ghani,Muhra AlMahri,Yuhao Li,Noor Ahsan,Umair Nawaz,Jean Lahoud,Hisham Cholakkal,Mubarak Shah,Philip Torr,Fahad Shahbaz Khan,Rao Muhammad Anwer,Salman Khan
発行日 2025-05-30 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク