DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models

要約

【タイトル】
DreamAvatar: 拡散モデルを用いたテキストと形状に導かれた3Dヒューマンアバター生成

【要約】
・本論文では、コントロール可能なポーズを持つ高品質な3Dヒューマンアバターを生成するためのテキストと形状に導かれたフレームワークであるDreamAvatarを提案する。
・近年のテキストガイド3D共通オブジェクト生成の成果は有望であるが、人体の形状、ポーズ、外観の複雑さのため、高品質な人間アバターの生成は開かれた課題である。
・提案手法のアプローチは、3Dポイントの密度と色の特徴を予測するための学習可能なNeRFを利用し、2D自己教師付きの事前学習されたテキストからイメージに変換する拡散モデルを利用している。
・SMPLモデルを利用して生成のための粗いポーズと形状のガイドを提供する。
・Canonical SpaceとObservation Spaceのデュアル空間デザインを導入し、学習可能な歪み場を介して関連付けることで、最適化されたテクスチャとジオメトリをCanonical Spaceからターゲットアバターに転送することができる。
・正規性整合性正則化を利用して、詳細なジオメトリとテクスチャを持つ生き生きとした生成を可能にする。
・広範な評価により、DreamAvatarは既存の手法を大幅に上回り、テキストと形状に導かれた3D人間生成の新たな最先端を確立していることが示された。

要約(オリジナル)

We present DreamAvatar, a text-and-shape guided framework for generating high-quality 3D human avatars with controllable poses. While encouraging results have been produced by recent methods on text-guided 3D common object generation, generating high-quality human avatars remains an open challenge due to the complexity of the human body’s shape, pose, and appearance. We propose DreamAvatar to tackle this challenge, which utilizes a trainable NeRF for predicting density and color features for 3D points and a pre-trained text-to-image diffusion model for providing 2D self-supervision. Specifically, we leverage SMPL models to provide rough pose and shape guidance for the generation. We introduce a dual space design that comprises a canonical space and an observation space, which are related by a learnable deformation field through the NeRF, allowing for the transfer of well-optimized texture and geometry from the canonical space to the target posed avatar. Additionally, we exploit a normal-consistency regularization to allow for more vivid generation with detailed geometry and texture. Through extensive evaluations, we demonstrate that DreamAvatar significantly outperforms existing methods, establishing a new state-of-the-art for text-and-shape guided 3D human generation.

arxiv情報

著者 Yukang Cao,Yan-Pei Cao,Kai Han,Ying Shan,Kwan-Yee K. Wong
発行日 2023-04-06 16:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク