HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

要約

テキスト プロンプトからリアルな 3D 人間を生成することは、望ましいことではありますが、困難な作業です。
既存の方法では、スコア蒸留サンプリング (SDS) を介してメッシュやニューラル フィールドなどの 3D 表現を最適化しますが、詳細が不十分であったり、トレーニングに時間がかかりすぎたりするという問題がありました。
この論文では、きめ細かいジオメトリとリアルな外観を備えた高品質の 3D 人間を生成する、効率的かつ効果的なフレームワーク HumanGaussian を提案します。
私たちの重要な洞察は、3D ガウス スプラッティングが周期的なガウス収縮または成長を伴う効率的なレンダラであり、そのような適応密度制御が人間の固有の構造によって自然に誘導できるということです。
具体的には、1) まず人間の外観と形状を同時に最適化する構造認識型 SDS を提案します。
RGB と深度空間の両方からのマルチモーダル スコア関数を利用して、ガウスの緻密化と枝刈りのプロセスを抽出します。
2) さらに、SDS をよりノイズの多い生成スコアとよりクリーンな分類子スコアに分解することにより、アニーリングされたネガティブ プロンプト ガイダンスを考案し、過飽和の問題にうまく対処します。
浮遊アーティファクトは、プルーンのみのフェーズでガウス サイズに基づいてさらに除去され、生成のスムーズさが向上します。
広範な実験により、当社のフレームワークの優れた効率性と競争力のある品質が実証され、さまざまなシナリオで鮮やかな 3D 人間がレンダリングされます。
プロジェクトページ: https://alvinliu0.github.io/projects/HumanGaussian

要約(オリジナル)

Realistic 3D human generation from text prompts is a desirable yet challenging task. Existing methods optimize 3D representations like mesh or neural fields via score distillation sampling (SDS), which suffers from inadequate fine details or excessive training time. In this paper, we propose an efficient yet effective framework, HumanGaussian, that generates high-quality 3D humans with fine-grained geometry and realistic appearance. Our key insight is that 3D Gaussian Splatting is an efficient renderer with periodic Gaussian shrinkage or growing, where such adaptive density control can be naturally guided by intrinsic human structures. Specifically, 1) we first propose a Structure-Aware SDS that simultaneously optimizes human appearance and geometry. The multi-modal score function from both RGB and depth space is leveraged to distill the Gaussian densification and pruning process. 2) Moreover, we devise an Annealed Negative Prompt Guidance by decomposing SDS into a noisier generative score and a cleaner classifier score, which well addresses the over-saturation issue. The floating artifacts are further eliminated based on Gaussian size in a prune-only phase to enhance generation smoothness. Extensive experiments demonstrate the superior efficiency and competitive quality of our framework, rendering vivid 3D humans under diverse scenarios. Project Page: https://alvinliu0.github.io/projects/HumanGaussian

arxiv情報

著者 Xian Liu,Xiaohang Zhan,Jiaxiang Tang,Ying Shan,Gang Zeng,Dahua Lin,Xihui Liu,Ziwei Liu
発行日 2024-03-14 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク