VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

要約

現在のマルチモーダルベンチマークは、多くの場合、推論とドメイン固有の知識を混同し、非専門家の設定で一般的な推論能力を分離および評価することを困難にします。
これに対処するために、VisualPuzzlesを導入します。これは、視覚的な推論をターゲットにしながら、専門的な知識への依存を意図的に最小限に抑えるベンチマークです。
VisualPuzzlesは、アルゴリズム、類推、演ductive、帰納的、および空間的推論の5つのカテゴリにまたがる多様な質問で構成されています。
私たちの質問の主な原因の1つは、中国の公務員試験からの論理的推論の質問を手動で翻訳することです。
実験では、視覚的パズルには、MMMUなどのベンチマークと比較して、視覚的なドメイン固有の知識とより複雑な推論が必要であり、本物のマルチモーダル推論をよりよく評価できるようにすることが示されています。
評価によると、最先端のマルチモーダルな大手言語モデルは、視覚的パズルの人間のパフォーマンスに一貫して遅れをとっており、知識集約型ベンチマークの強力なパフォーマンスは、必ずしも推論に焦点を合わせた知識の光のタスクの成功につながるわけではありません。
さらに、推論計算のスケールアップ(「思考」モードを使用して)などの推論の強化は、モデルとタスクタイプ間で一貫性のない利益をもたらし、モデルサイズとパフォーマンスの間に明確な相関関係は観察されません。
また、モデルは、知識に重点を置いたベンチマークと比較して、視覚的パズルの異なる推論と応答パターンを示すことを発見しました。
VisualPuzzlesは、事実上のリコールやドメインの知識を超えて、推論機能を評価するためのより明確なレンズを提供します。

要約(オリジナル)

Current multimodal benchmarks often conflate reasoning with domain-specific knowledge, making it difficult to isolate and evaluate general reasoning abilities in non-expert settings. To address this, we introduce VisualPuzzles, a benchmark that targets visual reasoning while deliberately minimizing reliance on specialized knowledge. VisualPuzzles consists of diverse questions spanning five categories: algorithmic, analogical, deductive, inductive, and spatial reasoning. One major source of our questions is manually translated logical reasoning questions from the Chinese Civil Service Examination. Experiments show that VisualPuzzles requires significantly less intensive domain-specific knowledge and more complex reasoning compared to benchmarks like MMMU, enabling us to better evaluate genuine multimodal reasoning. Evaluations show that state-of-the-art multimodal large language models consistently lag behind human performance on VisualPuzzles, and that strong performance on knowledge-intensive benchmarks does not necessarily translate to success on reasoning-focused, knowledge-light tasks. Additionally, reasoning enhancements such as scaling up inference compute (with ‘thinking’ modes) yield inconsistent gains across models and task types, and we observe no clear correlation between model size and performance. We also found that models exhibit different reasoning and answering patterns on VisualPuzzles compared to benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer lens through which to evaluate reasoning capabilities beyond factual recall and domain knowledge.

arxiv情報

著者 Yueqi Song,Tianyue Ou,Yibo Kong,Zecheng Li,Graham Neubig,Xiang Yue
発行日 2025-04-14 15:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク