PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

要約

テキスト条件付き拡散モデル (DM) が画像、ビデオ、および 3D 生成において画期的な進歩を遂げるにつれて、研究コミュニティの焦点は、動的な 3D オブジェクトを生成するために時間的次元を導入する、テキストから 4D への合成というより困難なタスクに移ってきました。
これに関連して、テキストから 3D への合成に広く使用されている技術であるスコア蒸留サンプリング (SDS) が、ヤヌスに直面し、テクスチャの非現実的な問題に加え、高品質であるため、テキストから 4D へのパフォーマンスの重大な障害となっていると考えられます。
計算コスト。
この論文では、Text-to-\textbf{4D} ガウス スプラッティング (\textbf{PLA4D}) のための \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments を提案します。これは、
テキストからビデオへのフレームを明示的なピクセル位置合わせターゲットとして使用し、静的な 3D オブジェクトを生成し、そこにモーションを挿入します。
具体的には、レンダリング用のカメラ ポーズを調整するフォーカル アライメントと、レンダリングされた画像のコントラストからピクセル レベルでジオメトリの事前分布を抽出する GS-Mesh コントラスト学習を導入します。
さらに、変形ネットワークを使用してモーション アライメントを開発し、ガウスの変化を駆動し、滑らかな 4D オブジェクト表面のためのリファレンス リファインメントを実装します。
これらの技術により、4D ガウス スプラッティングを使用して、ジオメトリ、テクスチャ、およびモーションを生成されたビデオとピクセル レベルで位置合わせすることができます。
以前の方法と比較して、PLA4D はより短い時間でより優れたテクスチャ詳細を備えた合成出力を生成し、ヤヌスに直面した問題を効果的に軽減します。
PLA4D はオープンソース モデルを使用して完全に実装されており、4D デジタル コンテンツ作成にアクセスしやすく、ユーザーフレンドリーで有望な方向性を提供します。
私たちのプロジェクトページ: https://miaoqiaowei.github.io/PLA4D/。

要約(オリジナル)

As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community’s focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting (\textbf{PLA4D}), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: https://miaoqiaowei.github.io/PLA4D/.

arxiv情報

著者 Qiaowei Miao,Yawei Luo,Yi Yang
発行日 2024-06-05 12:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク