PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

要約

我々は、単一の画像と入力条件 (画像内のオブジェクトに加えられる力やトルクなど) を変換して、現実的で物理的に妥当で、時間的に一貫したビデオを生成する、新しい画像からビデオへの生成方法である PhysGen を紹介します。
私たちの重要な洞察は、モデルベースの物理シミュレーションとデータ駆動型ビデオ生成プロセスを統合し、妥当な画像空間ダイナミクスを可能にすることです。
私たちのシステムの中心となるのは、次の 3 つのコア コンポーネントです。(i) 画像の形状、材質、物理パラメータを効果的にキャプチャする画像理解モジュール。
(ii) 剛体の物理学と推論されたパラメータを利用して現実的な動作をシミュレートする画像空間ダイナミクス シミュレーション モデル。
(iii) 生成ビデオ拡散を活用して、シミュレートされた動きを特徴とするリアルなビデオ映像を生成する画像ベースのレンダリングおよび改良モジュール。
結果として得られるビデオは、物理的および外観の両方において現実的であり、さらに正確に制御可能であり、定量的な比較と包括的なユーザー調査を通じて、既存のデータ駆動型の画像からビデオへの生成作業よりも優れた結果を示しています。
PhysGen の結果として得られるビデオは、画像をリアルなアニメーションに変換したり、ユーザーが画像を操作してさまざまなダイナミクスを作成したりできるようにするなど、さまざまな下流アプリケーションに使用できます。
プロジェクトページ: https://stevenlsw.github.io/physgen/

要約(オリジナル)

We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen’s resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

arxiv情報

著者 Shaowei Liu,Zhongzheng Ren,Saurabh Gupta,Shenlong Wang
発行日 2024-09-27 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク