要約
OpenAIのSoraは、基本的な物理法則に準拠した世界モデルを開発するための映像生成の可能性を強調している。しかし、人間のプライアなしに純粋に映像データからそのような法則を発見する映像生成モデルの能力には疑問が残る。真の法則を学習する世界モデルは、ニュアンスの違いに頑健な予測を与え、未知のシナリオを正しく外挿するはずである。本研究では、3つの重要なシナリオ(分布内、分布外、組み合わせ汎化)を評価する。我々は、物体の移動と衝突のための2Dシミュレーション・テストベッドを開発し、1つ以上の古典力学法則に決定論的に支配された動画を生成した。これにより、大規模実験に必要なデータが無制限に供給され、生成された動画が物理法則に従うかどうかを定量的に評価することができる。我々は、初期フレームに基づいて物体の動きを予測する拡散ベースの動画生成モデルを訓練した。スケーリング実験では、分布内での完全な汎化、組み合わせ汎化のための測定可能なスケーリング挙動が示されたが、分布外のシナリオでは失敗した。さらなる実験により、これらのモデルの汎化メカニズムに関する2つの重要な洞察が明らかになった:(1)モデルは一般的な物理的ルールを抽象化できず、代わりに「ケースベース」の汎化挙動を示す、すなわち最も近い訓練例を模倣する。我々の研究は、Soraの広範な成功における役割にもかかわらず、スケーリングだけでは、基本的な物理法則を発見するビデオ生成モデルには不十分であることを示唆している。https://phyworld.github.io のプロジェクトページをご覧ください。
要約(オリジナル)
OpenAI’s Sora highlights the potential of video generation for developing world models that adhere to fundamental physical laws. However, the ability of video generation models to discover such laws purely from visual data without human priors can be questioned. A world model learning the true law should give predictions robust to nuances and correctly extrapolate on unseen scenarios. In this work, we evaluate across three key scenarios: in-distribution, out-of-distribution, and combinatorial generalization. We developed a 2D simulation testbed for object movement and collisions to generate videos deterministically governed by one or more classical mechanics laws. This provides an unlimited supply of data for large-scale experimentation and enables quantitative evaluation of whether the generated videos adhere to physical laws. We trained diffusion-based video generation models to predict object movements based on initial frames. Our scaling experiments show perfect generalization within the distribution, measurable scaling behavior for combinatorial generalization, but failure in out-of-distribution scenarios. Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit ‘case-based’ generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape. Our study suggests that scaling alone is insufficient for video generation models to uncover fundamental physical laws, despite its role in Sora’s broader success. See our project page at https://phyworld.github.io
arxiv情報
著者 | Bingyi Kang,Yang Yue,Rui Lu,Zhijie Lin,Yang Zhao,Kaixin Wang,Gao Huang,Jiashi Feng |
発行日 | 2024-11-04 18:53:05+00:00 |
arxivサイト | arxiv_id(pdf) |