Towards Physically Plausible Video Generation via VLM Planning

要約

ビデオ拡散モデル(VDMS)は近年大幅に進歩しており、非常に現実的なビデオの生成を可能にし、世界のシミュレータとしての可能性にコミュニティの注目を集めています。
ただし、その能力にもかかわらず、VDMは物理学の理解が固有の不足のために物理的にもっともらしいビデオを作成できないことが多く、その結果、ダイナミクスとイベントシーケンスが誤っています。
この制限に対処するために、物理学を明示的に組み込んだ新しい2段階の画像からビデオへの生成フレームワークを提案します。
最初の段階では、粗粒のモーションプランナーとしてビジョン言語モデル(VLM)を採用し、考え方と物理学を意識した推論を統合して、概算間の物理的ダイナミクスを近似しながら、総合的なモーション軌道/変化を予測しながら、フレーム間の一貫性を確保します。
第2段階では、VDMのビデオ生成をガイドするために、予測されるモーション軌跡/変更を使用します。
予測される動きの軌跡/変更が粗いため、推論中にノイズが追加され、より細かい詳細で動きを生成する際にVDMに自由を提供します。
広範な実験結果は、私たちのフレームワークが物理的にもっともらしい動きを生み出すことができることを示しており、比較評価は既存の方法に対するアプローチの顕著な優位性を強調しています。
その他のビデオ結果は、プロジェクトページのページ(https://madaoer.github.io/projects/physicily_plausible_video_generation)で入手できます。

要約(オリジナル)

Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

arxiv情報

著者 Xindi Yang,Baolu Li,Yiming Zhang,Zhenfei Yin,Lei Bai,Liqian Ma,Zhiyong Wang,Jianfei Cai,Tien-Tsin Wong,Huchuan Lu,Xu Jia
発行日 2025-04-02 13:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク