Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

要約

テキスト誘導拡散モデルは、画像やビデオの生成に革命をもたらし、最適化ベースの3Dオブジェクト合成にも成功した。ここではその代わりに、未開拓のテキスト-to-4D設定に焦点を当て、時間的次元を追加したスコア蒸留法を用いて、動的なアニメーション3Dオブジェクトを合成する。従来の研究と比較して、我々は新しい構成生成ベースのアプローチを追求し、4Dオブジェクト最適化中にフィードバックを提供するために、テキストから画像、テキストからビデオ、および3D認識マルチビュー拡散モデルを組み合わせることで、時間的一貫性、高品質の視覚的外観、およびリアルな形状を同時に実現する。Align Your Gaussians (AYG)と呼ばれる我々の手法は、4D表現として変形フィールドを用いた動的3Dガウススプラッティングを活用している。AYGで重要なのは、移動する3Dガウシアンの分布を正則化し、それによって最適化を安定させ、動きを誘導する新しい方法である。また、より長い生成のために、複数の4Dシーケンスを生成し、組み合わせるための新しい自己回帰合成スキームと同様に、動き増幅メカニズムを提案する。これらの技術により、鮮明でダイナミックなシーンを合成し、質的にも量的にも先行研究を上回り、最先端のテキストから4Dへの性能を達成することができる。ガウス型4D表現により、我々が実証するように、異なる4Dアニメーションをシームレスに組み合わせることができる。AYGは、アニメーション、シミュレーション、デジタルコンテンツ作成、合成データ生成に有望な道を開く。

要約(オリジナル)

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.

arxiv情報

著者 Huan Ling,Seung Wook Kim,Antonio Torralba,Sanja Fidler,Karsten Kreis
発行日 2024-01-03 09:40:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク