WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions

要約

WonderPlayは、単一の画像からアクションコンディショニングされた動的3Dシーンを生成するためのビデオ生成と物理シミュレーションを統合する新しいフレームワークです。
以前の作品は剛体またはシンプルな弾性ダイナミクスに制限されていますが、WonderPlayは、幅広い3Dダイナミクスを合成するためのハイブリッド生成シミュレーターを備えています。
ハイブリッド生成シミュレーターは、最初に物理ソルバーを使用して粗い3Dダイナミクスをシミュレートし、その後、ビデオジェネレーターを条件付けして、より細かい、より現実的な動きのあるビデオを作成します。
次に、生成されたビデオを使用して、シミュレートされた動的3Dシーンを更新し、物理ソルバーとビデオジェネレーターの間のループを閉じます。
このアプローチにより、直感的なユーザー制御を、物理ベースのシミュレーターの正確なダイナミクスと拡散ベースのビデオジェネレーターの表現力と組み合わせることができます。
実験結果は、WonderPlayにより、ユーザーは布、砂、雪、液体、煙、弾性、剛体など、さまざまなコンテンツのさまざまなシーンと対話できることを示しています。
コードが公開されます。
プロジェクトのウェブサイト:https://kyleleey.github.io/wonderplay/

要約(オリジナル)

WonderPlay is a novel framework integrating physics simulation with video generation for generating action-conditioned dynamic 3D scenes from a single image. While prior works are restricted to rigid body or simple elastic dynamics, WonderPlay features a hybrid generative simulator to synthesize a wide range of 3D dynamics. The hybrid generative simulator first uses a physics solver to simulate coarse 3D dynamics, which subsequently conditions a video generator to produce a video with finer, more realistic motion. The generated video is then used to update the simulated dynamic 3D scene, closing the loop between the physics solver and the video generator. This approach enables intuitive user control to be combined with the accurate dynamics of physics-based simulators and the expressivity of diffusion-based video generators. Experimental results demonstrate that WonderPlay enables users to interact with various scenes of diverse content, including cloth, sand, snow, liquid, smoke, elastic, and rigid bodies — all using a single image input. Code will be made public. Project website: https://kyleleey.github.io/WonderPlay/

arxiv情報

著者 Zizhang Li,Hong-Xing Yu,Wei Liu,Yin Yang,Charles Herrmann,Gordon Wetzstein,Jiajun Wu
発行日 2025-05-23 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク