Forgotten Polygons: Multimodal Large Language Models are Shape-Blind

要約

ビジョン言語のタスクでのパフォーマンスが強いにもかかわらず、マルチモーダルの大手言語モデル(MLLM)は数学的な問題解決に苦労しており、オープンソースと最先端のモデルの両方がビジュアルマスベンチマークでの人間のパフォーマンスに達していません。
MLLMの視覚的数学的推論を体系的に調べるために、(1)幾何学的プリミティブの理解を評価します。
私たちの調査結果は、形状認識の根本的な欠点を明らかにしており、トップモデルは通常のポリゴンを特定する際に50%未満の精度を達成しています。
これらの障害は、デュアルプロセス理論のレンズを介して分析し、MLLMがシステム2(意図的な推論)ではなく、システム1(直感的で記憶された関連性)に依存していることを示しています。
その結果、MLLMSは、おなじみの形状と新しい形状の両方の側面をカウントできず、辺の概念を学んだことも、視覚入力を効果的に処理していないことを示唆しています。
最後に、視覚的に手がかりのチェーンのチェーン(VC-COT)プロンプトを提案します。これは、図の視覚的注釈を明示的に参照し、不規則なポリゴンサイドカウントタスクでのGPT-4Oの精度を7%から93%に高めることにより、多段階の数学的推論を強化します。
私たちの調査結果は、MLLMSのシステム2推論が未解決の問題であり、視覚的に誘導されるプロンプトが視覚的推論をうまく関与させるために不可欠であることを示唆しています。
https://github.com/rsinghlab/shape-blindで利用可能なコード。

要約(オリジナル)

Despite strong performance on vision-language tasks, Multimodal Large Language Models (MLLMs) struggle with mathematical problem-solving, with both open-source and state-of-the-art models falling short of human performance on visual-math benchmarks. To systematically examine visual-mathematical reasoning in MLLMs, we (1) evaluate their understanding of geometric primitives, (2) test multi-step reasoning, and (3) explore a potential solution to improve visual reasoning capabilities. Our findings reveal fundamental shortcomings in shape recognition, with top models achieving under 50% accuracy in identifying regular polygons. We analyze these failures through the lens of dual-process theory and show that MLLMs rely on System 1 (intuitive, memorized associations) rather than System 2 (deliberate reasoning). Consequently, MLLMs fail to count the sides of both familiar and novel shapes, suggesting they have neither learned the concept of sides nor effectively process visual inputs. Finally, we propose Visually Cued Chain-of-Thought (VC-CoT) prompting, which enhances multi-step mathematical reasoning by explicitly referencing visual annotations in diagrams, boosting GPT-4o’s accuracy on an irregular polygon side-counting task from 7% to 93%. Our findings suggest that System 2 reasoning in MLLMs remains an open problem, and visually-guided prompting is essential for successfully engaging visual reasoning. Code available at: https://github.com/rsinghlab/Shape-Blind.

arxiv情報

著者 William Rudman,Michal Golovanesky,Amir Bar,Vedant Palit,Yann LeCun,Carsten Eickhoff,Ritambhara Singh
発行日 2025-03-11 15:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク