要約
大規模な事前訓練を受けたビデオ生成モデルは、コンテンツの作成に優れていますが、身体的に正確な世界のシミュレータとして信頼できません。
この作業は、オブジェクトの自由落下をモデリングするという単純で基本的な物理学のタスクのレンズを介した正確な世界モデリングのためのこれらのモデル後のトレーニングのプロセスを研究します。
視覚的に印象的な出力にもかかわらず、最先端のビデオ生成モデルがこの基本的なタスクに苦しんでいることを示しています。
この問題を改善するために、比較的少量のシミュレートされたビデオで微調整することは、モデルのドロップ動作を誘導するのに効果的であり、紹介する新しい報酬モデリング手順を通じて結果をさらに改善できることがわかります。
また、私たちの研究は、一般化と流通モデリングにおけるトレーニング後の重要な制限を明らかにしています。
さらに、このタスクのベンチマークをリリースし、大規模なビデオ生成モデル開発において物理的精度を追跡するための有用な診断ツールとして機能する可能性があります。
要約(オリジナル)
Large-scale pre-trained video generation models excel in content creation but are not reliable as physically accurate world simulators out of the box. This work studies the process of post-training these models for accurate world modeling through the lens of the simple, yet fundamental, physics task of modeling object freefall. We show state-of-the-art video generation models struggle with this basic task, despite their visually impressive outputs. To remedy this problem, we find that fine-tuning on a relatively small amount of simulated videos is effective in inducing the dropping behavior in the model, and we can further improve results through a novel reward modeling procedure we introduce. Our study also reveals key limitations of post-training in generalization and distribution modeling. Additionally, we release a benchmark for this task that may serve as a useful diagnostic tool for tracking physical accuracy in large-scale video generative model development.
arxiv情報
著者 | Chenyu Li,Oscar Michel,Xichen Pan,Sainan Liu,Mike Roberts,Saining Xie |
発行日 | 2025-03-12 17:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google