VividDream: Generating 3D Scene with Ambient Dynamics

要約

単一の入力画像またはテキスト プロンプトからアンビエント ダイナミクスを備えた探索可能な 4D シーンを生成する方法である VividDream を紹介します。
VividDream はまず、反復的な修復とジオメトリの結合を通じて、入力イメージを静的な 3D 点群に拡張します。
次に、アニメーション ビデオのアンサンブルが、品質改良技術を備えたビデオ拡散モデルを使用して生成され、サンプリングされたカメラの軌跡からの静的な 3D シーンのレンダリングに条件付けされます。
次に、不一致を軽減するためにビデオごとのモーション埋め込みと可視性マスクを使用して、アニメーション ビデオ アンサンブルを使用して標準 4D シーン表現を最適化します。
結果として得られる 4D シーンにより、もっともらしい周囲シーンのダイナミクスを備えた 3D シーンの自由な探索が可能になります。
実験では、VividDream が、さまざまな実際の画像とテキスト プロンプトに基づいて生成された魅力的な 4D 体験を人間の視聴者に提供できることが実証されています。

要約(オリジナル)

We introduce VividDream, a method for generating explorable 4D scenes with ambient dynamics from a single input image or text prompt. VividDream first expands an input image into a static 3D point cloud through iterative inpainting and geometry merging. An ensemble of animated videos is then generated using video diffusion models with quality refinement techniques and conditioned on renderings of the static 3D scene from the sampled camera trajectories. We then optimize a canonical 4D scene representation using an animated video ensemble, with per-video motion embeddings and visibility masks to mitigate inconsistencies. The resulting 4D scene enables free-view exploration of a 3D scene with plausible ambient scene dynamics. Experiments demonstrate that VividDream can provide human viewers with compelling 4D experiences generated based on diverse real images and text prompts.

arxiv情報

著者 Yao-Chih Lee,Yi-Ting Chen,Andrew Wang,Ting-Hsuan Liao,Brandon Y. Feng,Jia-Bin Huang
発行日 2024-05-30 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク