要約
Intphys 2は、深い学習モデルの直感的な物理的理解を評価するために設計されたビデオベンチマークです。
元のIntphysベンチマークに基づいて、Intphys 2は、巨視的なオブジェクトに関連する4つのコア原則に焦点を当てています:永続性、不変性、時空間の連続性、および堅牢性。
これらの状態は、幼少期に現れる直感的な身体的理解の研究に触発されています。
Intphys 2は、予想フレームワークの違反に基づいて、包括的なテストスイートを提供します。これは、制御された多様な仮想環境内で可能なイベントと不可能なイベントを区別するようにモデルに挑戦します。
ベンチマークに加えて、いくつかの最先端のモデルのパフォーマンス評価を提供します。
我々の調査結果は、これらのモデルは基本的な視覚的理解を示しているが、複雑なシーンで4つの原則にわたって直感的な物理学を把握し、ほとんどのモデルが偶然のレベル(50%)でパフォーマンスを発揮し、人間のパフォーマンスとはまったく対照的に、ほぼ完璧な精度を達成することを示していることを示しています。
これは、現在のモデルと人間のような直感的な物理学の理解との間のギャップを強調し、モデルアーキテクチャとトレーニング方法論の進歩の必要性を強調しています。
要約(オリジナル)
We present IntPhys 2, a video benchmark designed to evaluate the intuitive physics understanding of deep learning models. Building on the original IntPhys benchmark, IntPhys 2 focuses on four core principles related to macroscopic objects: Permanence, Immutability, Spatio-Temporal Continuity, and Solidity. These conditions are inspired by research into intuitive physical understanding emerging during early childhood. IntPhys 2 offers a comprehensive suite of tests, based on the violation of expectation framework, that challenge models to differentiate between possible and impossible events within controlled and diverse virtual environments. Alongside the benchmark, we provide performance evaluations of several state-of-the-art models. Our findings indicate that while these models demonstrate basic visual understanding, they face significant challenges in grasping intuitive physics across the four principles in complex scenes, with most models performing at chance levels (50%), in stark contrast to human performance, which achieves near-perfect accuracy. This underscores the gap between current models and human-like intuitive physics understanding, highlighting the need for advancements in model architectures and training methodologies.
arxiv情報
著者 | Florian Bordes,Quentin Garrido,Justine T Kao,Adina Williams,Michael Rabbat,Emmanuel Dupoux |
発行日 | 2025-06-11 15:21:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google