要約
生成拡散モデルの最近の進歩により、単一の入力画像またはテキスト プロンプトから 3D アセットを生成するという、以前は実現不可能であった機能が可能になりました。
この作業では、制御可能で写真のようにリアルな人間のアバターを作成するタスクに向けて、これらのモデルの品質と機能を強化することを目指しています。
私たちは、3D モーファブル モデルを最先端のマルチビュー一貫性拡散アプローチに統合することでこれを実現しました。
多関節 3D モデル上の生成パイプラインを正確に調整することで、単一画像からの新しいビュー合成のタスクにおけるベースライン モデルのパフォーマンスが向上することを実証します。
さらに重要なことは、この統合により、顔の表情と体の姿勢制御を生成プロセスにシームレスかつ正確に組み込むことが容易になります。
私たちの知る限り、私たちが提案したフレームワークは、目に見えない被写体の 1 つの画像から、完全に 3D 一貫性があり、アニメーション化可能でフォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルです。
広範な定量的および定性的評価により、新しいビューと新しい表現合成タスクの両方において、既存の最先端のアバター作成モデルに対する私たちのアプローチの利点が実証されています。
要約(オリジナル)
Recent advances in generative diffusion models have enabled the previously unfeasible capability of generating 3D assets from a single input image or a text prompt. In this work, we aim to enhance the quality and functionality of these models for the task of creating controllable, photorealistic human avatars. We achieve this by integrating a 3D morphable model into the state-of-the-art multiview-consistent diffusion approach. We demonstrate that accurate conditioning of a generative pipeline on the articulated 3D model enhances the baseline model performance on the task of novel view synthesis from a single image. More importantly, this integration facilitates a seamless and accurate incorporation of facial expression and body pose control into the generation process. To the best of our knowledge, our proposed framework is the first diffusion model to enable the creation of fully 3D-consistent, animatable, and photorealistic human avatars from a single image of an unseen subject; extensive quantitative and qualitative evaluations demonstrate the advantages of our approach over existing state-of-the-art avatar creation models on both novel view and novel expression synthesis tasks.
arxiv情報
著者 | Xiyi Chen,Marko Mihajlovic,Shaofei Wang,Sergey Prokudin,Siyu Tang |
発行日 | 2024-01-09 18:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google