4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency

要約

テキストから画像への拡散モデルとテキストからビデオへの拡散モデルを活用した既存の 4D コンテンツ作成パイプラインは、スコア蒸留サンプリングを利用して動的 3D シーン全体を最適化します。
ただし、これらのパイプラインはテキストまたは画像の入力から 4D コンテンツを生成するため、試行錯誤による迅速なエンジニアリングに多大な時間と労力がかかります。
この作品では、4D 生成タスクを複数の段階に分解する、根拠のある 4D コンテンツ作成のための新規で総合的なフレームワークである 4DGen を紹介します。
私たちは、4D コンテンツを構築する際の主要なコンポーネントとして、静的な 3D アセットと単眼ビデオ シーケンスを特定します。
当社のパイプラインは条件付き 4D 生成を容易にし、ユーザーがジオメトリ (3D アセット) とモーション (単眼ビデオ) を指定できるようにすることで、コンテンツ作成の優れた制御を提供します。
さらに、動的 3D ガウスを使用して 4D 表現を構築します。これにより、トレーニング中のレンダリングによる効率的な高解像度の監視が可能になり、高品質の 4D 生成が容易になります。
さらに、3D 対応のスコア蒸留サンプリングと滑らかさの正則化によって実装されたシームレスな一貫性事前分布とともに、アンカー フレームに時空間的な擬似ラベルを採用しています。
既存のベースラインと比較して、私たちのアプローチは、入力信号を忠実に再構築し、新しい視点とタイムステップからレンダリングを現実的に推論するという点で、競争力のある結果をもたらします。
最も重要なことは、私たちの方法は接地された発電をサポートし、ユーザーに強化された制御を提供することですが、これは以前の方法では達成が困難でした。
プロジェクトページ:https://vita-group.github.io/4DGen/

要約(オリジナル)

Aided by text-to-image and text-to-video diffusion models, existing 4D content creation pipelines utilize score distillation sampling to optimize the entire dynamic 3D scene. However, as these pipelines generate 4D content from text or image inputs, they incur significant time and effort in prompt engineering through trial and error. This work introduces 4DGen, a novel, holistic framework for grounded 4D content creation that decomposes the 4D generation task into multiple stages. We identify static 3D assets and monocular video sequences as key components in constructing the 4D content. Our pipeline facilitates conditional 4D generation, enabling users to specify geometry (3D assets) and motion (monocular videos), thus offering superior control over content creation. Furthermore, we construct our 4D representation using dynamic 3D Gaussians, which permits efficient, high-resolution supervision through rendering during training, thereby facilitating high-quality 4D generation. Additionally, we employ spatial-temporal pseudo labels on anchor frames, along with seamless consistency priors implemented through 3D-aware score distillation sampling and smoothness regularizations. Compared to existing baselines, our approach yields competitive results in faithfully reconstructing input signals and realistically inferring renderings from novel viewpoints and timesteps. Most importantly, our method supports grounded generation, offering users enhanced control, a feature difficult to achieve with previous methods. Project page: https://vita-group.github.io/4DGen/

arxiv情報

著者 Yuyang Yin,Dejia Xu,Zhangyang Wang,Yao Zhao,Yunchao Wei
発行日 2023-12-28 18:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク