4Dynamic: Text-to-4D Generation with Hybrid Priors

要約

テキストから画像への拡散モデルの魅力的な生成パフォーマンスにより、テキストから 3D への生成作業が増加しており、データ不足の問題を回避するために、スコア蒸留サンプリング (SDS) 損失を使用して 2D 生成事前分布を 3D に蒸留することが検討されています。
既存のテキストから 3D への変換方法は、リアリズムと 3D の一貫性において有望な結果を達成していますが、テキストから 4D への生成には、リアリズムの欠如やダイナミックなモーションの不足などの課題がまだあります。
この論文では、テキストから 4D への生成のための新しい方法を提案します。この方法は、事前ビデオによって提供される直接監視を通じて動的な振幅と信頼性を保証します。
具体的には、テキストからビデオへの拡散モデルを採用してリファレンスビデオを生成し、4D 生成を静的生成と動的生成の 2 段階に分けます。
静的な 3D 生成は、入力テキストと参照ビデオの最初のフレームのガイドの下で実現されますが、動的な生成段階では、カスタマイズされた SDS 損失を導入してマルチビューの一貫性を確保し、ビデオベースの SDS 損失を導入して改善します。
時間的な一貫性、そして最も重要なこととして、ジオメトリとテクスチャの品質を保証するためのリファレンス ビデオからの直接事前情報。
さらに、異なる事前設定間の競合を回避し、それぞれの事前設定の利点を最大限に活用するために、事前切り替えトレーニング戦略を設計します。
さらに、生成されたモーションを強化するために、変形ネットワークとトポロジ ネットワークで構成される動的モデリング表現をさらに導入します。これにより、トポロジ変化をモデル化しながら動的連続性が保証されます。
私たちの方法は、テキストから 4D への生成をサポートするだけでなく、単眼ビデオからの 4D 生成も可能にします。
比較実験により、既存の手法と比較した本手法の優位性が実証されました。

要約(オリジナル)

Due to the fascinating generative performance of text-to-image diffusion models, growing text-to-3D generation works explore distilling the 2D generative priors into 3D, using the score distillation sampling (SDS) loss, to bypass the data scarcity problem. The existing text-to-3D methods have achieved promising results in realism and 3D consistency, but text-to-4D generation still faces challenges, including lack of realism and insufficient dynamic motions. In this paper, we propose a novel method for text-to-4D generation, which ensures the dynamic amplitude and authenticity through direct supervision provided by a video prior. Specifically, we adopt a text-to-video diffusion model to generate a reference video and divide 4D generation into two stages: static generation and dynamic generation. The static 3D generation is achieved under the guidance of the input text and the first frame of the reference video, while in the dynamic generation stage, we introduce a customized SDS loss to ensure multi-view consistency, a video-based SDS loss to improve temporal consistency, and most importantly, direct priors from the reference video to ensure the quality of geometry and texture. Moreover, we design a prior-switching training strategy to avoid conflicts between different priors and fully leverage the benefits of each prior. In addition, to enrich the generated motion, we further introduce a dynamic modeling representation composed of a deformation network and a topology network, which ensures dynamic continuity while modeling topological changes. Our method not only supports text-to-4D generation but also enables 4D generation from monocular videos. The comparison experiments demonstrate the superiority of our method compared to existing methods.

arxiv情報

著者 Yu-Jie Yuan,Leif Kobbelt,Jiwen Liu,Yuan Zhang,Pengfei Wan,Yu-Kun Lai,Lin Gao
発行日 2024-07-17 16:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク