STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting

要約

テキストから4Dの世代は急速に開発されており、さまざまなシナリオで広く適用されています。
ただし、既存の方法は、統一されたフレームワーク内に適切な空間的モデリングと迅速なアラインメントを組み込むことができないことが多く、その結果、一時的な矛盾、幾何学的歪み、または提供されたテキストから逸脱する低品質の4Dコンテンツが得られます。
したがって、高品質のテキストから4D生成のための包括的な空間的プロムプトの一貫性モデリングを統合することを目的とする新しいアプローチであるSTP4Dを提案します。
具体的には、STP4Dは、この目標を達成するために協力する時間変化の迅速な埋め込み、幾何学的情報の強化、および時間的拡張変形の3つの慎重に設計されたモジュールを採用しています。
さらに、STP4Dは、拡散モデルを生成して拡散モデリング機能と4DGのリアルタイムレンダリングプロセスを拡散モデルの急速な推論速度と組み合わせた4Dガウスを生成する最初の方法の1つです。
広範な実験は、STP4Dが卓越した効率(資産あたり約4.6秒)で高忠実度4Dコンテンツを生成することに優れており、品質と速度の両方で既存の方法を上回っていることを示しています。

要約(オリジナル)

Text-to-4D generation is rapidly developing and widely applied in various scenarios. However, existing methods often fail to incorporate adequate spatio-temporal modeling and prompt alignment within a unified framework, resulting in temporal inconsistencies, geometric distortions, or low-quality 4D content that deviates from the provided texts. Therefore, we propose STP4D, a novel approach that aims to integrate comprehensive spatio-temporal-prompt consistency modeling for high-quality text-to-4D generation. Specifically, STP4D employs three carefully designed modules: Time-varying Prompt Embedding, Geometric Information Enhancement, and Temporal Extension Deformation, which collaborate to accomplish this goal. Furthermore, STP4D is among the first methods to exploit the Diffusion model to generate 4D Gaussians, combining the fine-grained modeling capabilities and the real-time rendering process of 4DGS with the rapid inference speed of the Diffusion model. Extensive experiments demonstrate that STP4D excels in generating high-fidelity 4D content with exceptional efficiency (approximately 4.6s per asset), surpassing existing methods in both quality and speed.

arxiv情報

著者 Yunze Deng,Haijun Xiong,Bin Feng,Xinggang Wang,Wenyu Liu
発行日 2025-04-25 12:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク