要約
視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモデルの重要な機能です。
しかし、マルチモーダルの大手言語モデル(MLLM)の現在の推論評価は、多くの場合、テキストの説明に依存し、言語ベースの推論ショートカットを許可し、本物のビジョン中心の推論を測定できません。
これに対処するために、visulogicを紹介します。6つのカテゴリにわたる1,000の人間検証問題のベンチマーク(定量的シフト、空間関係、属性の比較)。
これらのさまざまなタイプの質問を評価して、複数の視点からMLLMの視覚的推論能力を評価できます。
このベンチマークで主要なMLLMを評価し、結果を分析して一般的な障害モードを特定します。
ほとんどのモデルは、25%のランダムベースラインをわずかに上回る30%の精度のみを下回り、人間が視覚的推論における重要なギャップを歓迎する51.4%をはるかに下回っています。
さらに、さらなる進捗をサポートするために、補足トレーニングデータセットと強化学習ベースラインを提供します。
要約(オリジナル)
Visual reasoning is a core component of human intelligence and a critical capability for advanced multimodal models. Yet current reasoning evaluations of multimodal large language models (MLLMs) often rely on text descriptions and allow language-based reasoning shortcuts, failing to measure genuine vision-centric reasoning. To address this, we introduce VisuLogic: a benchmark of 1,000 human-verified problems across six categories (e.g., quantitative shifts, spatial relations, attribute comparisons). These various types of questions can be evaluated to assess the visual reasoning capabilities of MLLMs from multiple perspectives. We evaluate leading MLLMs on this benchmark and analyze their results to identify common failure modes. Most models score below 30% accuracy-only slightly above the 25% random baseline and far below the 51.4% achieved by humans-revealing significant gaps in visual reasoning. Furthermore, we provide a supplementary training dataset and a reinforcement-learning baseline to support further progress.
arxiv情報
著者 | Weiye Xu,Jiahao Wang,Weiyun Wang,Zhe Chen,Wengang Zhou,Aijun Yang,Lewei Lu,Houqiang Li,Xiaohua Wang,Xizhou Zhu,Wenhai Wang,Jifeng Dai,Jinguo Zhu |
発行日 | 2025-04-21 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google