A Unified Approach for Text- and Image-guided 4D Scene Generation

要約

大規模な拡散生成モデルにより、ユーザーが提供したテキスト プロンプトや画像からの画像、ビデオ、および 3D アセットの作成が大幅に簡素化されます。
ただし、拡散ガイダンスを使用したテキストから 4D へのダイナミック 3D シーン生成という困難な問題は、ほとんど解明されていないままです。
私たちは、テキストから 4D への合成のための新しい 2 段階のアプローチを特徴とする Dream-in-4D を提案します。これは、(1) 3D および 2D の拡散ガイダンスを活用して、第 1 段階で高品質の静的 3D アセットを効果的に学習します。
(2) 学習された静的アセットをその変形から明示的に解きほぐし、モーション学習中の品質を維持する、変形可能なニューラル放射輝度フィールド。
(3) 第 2 段階でビデオ拡散ガイダンスを使用して動きを効果的に学習するための、変位総変動損失を伴う変形フィールドの多重解像度フィーチャ グリッド。
ユーザーの好みの調査を通じて、私たちのアプローチは、ベースラインのアプローチと比較して、画像とモーションの品質、3D の一貫性、テキストから 4D への生成におけるテキストの忠実度が大幅に向上することを実証しました。
Dream-in-4D は、モーションを解きほぐした表現のおかげで、モーション学習段階を変更する必要がなく、外観が 1 つまたは複数の画像によって定義される制御可能な生成にも簡単に適応できます。
したがって、私たちの方法は、テキストから 4D、画像から 4D、およびパーソナライズされた 4D 生成タスクに対する統一されたアプローチを初めて提供します。

要約(オリジナル)

Large-scale diffusion generative models are greatly simplifying image, video and 3D asset creation from user-provided text prompts and images. However, the challenging problem of text-to-4D dynamic 3D scene generation with diffusion guidance remains largely unexplored. We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage. Through a user preference study, we demonstrate that our approach significantly advances image and motion quality, 3D consistency and text fidelity for text-to-4D generation compared to baseline approaches. Thanks to its motion-disentangled representation, Dream-in-4D can also be easily adapted for controllable generation where appearance is defined by one or multiple images, without the need to modify the motion learning stage. Thus, our method offers, for the first time, a unified approach for text-to-4D, image-to-4D and personalized 4D generation tasks.

arxiv情報

著者 Yufeng Zheng,Xueting Li,Koki Nagano,Sifei Liu,Karsten Kreis,Otmar Hilliges,Shalini De Mello
発行日 2023-11-29 15:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク