DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

要約

事前トレーニングされた 2D 拡散モデルとスコア蒸留サンプリング (SDS) を活用する最近の方法では、テキストから 3D アバターを生成する有望な結果が示されています。
しかし、表現力豊かなアニメーションを実現できる高品質の 3D アバターを生成することは依然として困難です。
この研究では、テキストからアニメーション化可能な 3D アバターを生成するための新しい学習フレームワークである DreamWaltz-G を紹介します。
このフレームワークの中核は、スケルトンに基づいたスコア抽出とハイブリッド 3D ガウス アバター表現にあります。
具体的には、提案されたスケルトンガイド付きスコア蒸留は、3D 人間テンプレートから 2D 拡散モデルにスケルトン制御を統合し、ビューと人間の姿勢に関する SDS 監視の一貫性を強化します。
これにより、高品質のアバターの生成が容易になり、複数の顔、余分な手足、ぼやけなどの問題が軽減されます。
提案されたハイブリッド 3D ガウス アバター表現は、効率的な 3D ガウスに基づいて構築されており、ニューラル暗黙的フィールドとパラメーター化された 3D メッシュを組み合わせて、リアルタイム レンダリング、安定した SDS 最適化、および表現力豊かなアニメーションを可能にします。
広範な実験により、DreamWaltz-G は 3D アバターの生成とアニメーション化に非常に効果的であり、ビジュアル品質とアニメーション表現力の両方で既存の方法を上回っていることが実証されました。
私たちのフレームワークは、人間のビデオの再現や複数の被写体のシーンの合成など、さまざまなアプリケーションをさらにサポートしています。

要約(オリジナル)

Leveraging pretrained 2D diffusion models and score distillation sampling (SDS), recent methods have shown promising results for text-to-3D avatar generation. However, generating high-quality 3D avatars capable of expressive animation remains challenging. In this work, we present DreamWaltz-G, a novel learning framework for animatable 3D avatar generation from text. The core of this framework lies in Skeleton-guided Score Distillation and Hybrid 3D Gaussian Avatar representation. Specifically, the proposed skeleton-guided score distillation integrates skeleton controls from 3D human templates into 2D diffusion models, enhancing the consistency of SDS supervision in terms of view and human pose. This facilitates the generation of high-quality avatars, mitigating issues such as multiple faces, extra limbs, and blurring. The proposed hybrid 3D Gaussian avatar representation builds on the efficient 3D Gaussians, combining neural implicit fields and parameterized 3D meshes to enable real-time rendering, stable SDS optimization, and expressive animation. Extensive experiments demonstrate that DreamWaltz-G is highly effective in generating and animating 3D avatars, outperforming existing methods in both visual quality and animation expressiveness. Our framework further supports diverse applications, including human video reenactment and multi-subject scene composition.

arxiv情報

著者 Yukun Huang,Jianan Wang,Ailing Zeng,Zheng-Jun Zha,Lei Zhang,Xihui Liu
発行日 2024-09-25 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク