Do generative video models understand physical principles?

要約

AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています。
これらの進歩は、情熱的な科学的議論につながりました。ビデオモデルは物理学の法則を発見する「世界モデル」を学びますか、それとも、現実の物理的原則を理解せずに視覚的リアリズムを達成する洗練されたピクセル予測因子ですか?
この質問に対処し、物理学-IQを開発します。これは、流体のダイナミクス、光学、固体力学、磁気、熱力学など、さまざまな物理的原理を深く理解することによってのみ解決できる包括的なベンチマークデータセットです。
さまざまな現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、videopoet)にわたって、身体的理解は厳しく制限されており、視覚的リアリズムとは無関係であることがわかります。
同時に、一部のテストケースはすでに正常に解決できます。
これは、観察だけで特定の物理的原則を獲得することが可能であることを示していますが、重要な課題が残っています。
私たちの仕事は、急速な進歩を期待していますが、私たちの仕事は視覚的リアリズムが肉体的理解を暗示していないことを示しています。
プロジェクトページはhttps://physics-iq.github.ioにあります。
https://github.com/google-deepmind/physics-iq-benchmarkのコード。

要約(オリジナル)

AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ‘world models’ that discover laws of physics — or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

arxiv情報

著者 Saman Motamed,Laura Culp,Kevin Swersky,Priyank Jaini,Robert Geirhos
発行日 2025-02-27 15:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク