PhyX: Does Your Model Have the ‘Wits’ for Physical Reasoning?

要約

既存のベンチマークは、インテリジェンスの重要な側面をキャプチャできません。物理的推論、ドメインの知識を組み合わせる統合された能力、象徴的な推論、および実際の制約の理解。
このギャップに対処するために、Phyxを紹介します。視覚シナリオで物理学に基づいた推論のモデル容量を評価するために設計された最初の大規模ベンチマークです。
Phyxには、25のサブドメインと6つのコア物理学ドメインにまたがる6つの推論タイプにまたがる3Kの綿密にキュレーションされたマルチモーダル質問が含まれています:熱力学、電磁気、メカニクス、現代物理学、光学、および波&音響。
私たちの包括的な評価では、最先端のモデルでさえ、物理的な推論に大幅に苦労しています。
GPT-4O、Claude3.7-Sonnet、およびGPT-O4-MINIは、人間の専門家と比較して29%を超えるパフォーマンスのギャップがそれぞれ32.5%、42.2%、45.8%の精度しか得られません。
私たちの分析では、現在のモデルの重大な制限を明らかにしています。記憶された懲戒知識への過度の依存、数学的定式化への過度の依存、および真の身体的理解ではなく、表面レベルの視覚パターンの一致です。
物理的な推論能力を徹底的に調べるために、微調整された統計、詳細なケーススタディ、および複数の評価パラダイムを通じて詳細な分析を提供します。
再現性を確保するために、Vlmevalkitなどの広く使用されているツールキットに基づいて互換性のある評価プロトコルを実装し、ワンクリック評価を可能にします。
詳細については、https://phyx-bench.github.io/のプロジェクトページをご覧ください。

要約(オリジナル)

Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5%, 42.2%, and 45.8% accuracy respectively-performance gaps exceeding 29% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation. More details are available on our project page: https://phyx-bench.github.io/.

arxiv情報

著者 Hui Shen,Taiqiang Wu,Qi Han,Yunta Hsieh,Jizhou Wang,Yuyue Zhang,Yuxin Cheng,Zijian Hao,Yuansheng Ni,Xin Wang,Zhongwei Wan,Kai Zhang,Wendong Xu,Jing Xiong,Ping Luo,Wenhu Chen,Chaofan Tao,Zhuoqing Mao,Ngai Wong
発行日 2025-05-29 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク