要約
1枚の画像からアニメーション可能な人体アバターを生成することは、様々なデジタル人体モデリングアプリケーションにとって不可欠である。一方、制御可能なアニメーションのための生成的アプローチは、明示的な3Dモデリングを回避するものの、極端なポーズにおける視点の不一致や計算効率の悪さに悩まされる。本論文では、生成モデルの力を活用し、詳細な多視点カノニカルポーズ画像を生成することで、これらの課題に対処する。次に、推論中のリアルタイムレンダリングを可能にする、一貫性のない画像の3D再構成のためのロバストな手法を提案する。具体的には、多視点正準ポーズ画像と法線マップを生成するために、変換器ベースの動画生成モデルを適応し、汎化性を向上させるために大規模な動画データセットで事前学習を行う。ビューの不一致を扱うために、再構成問題を4次元タスクとして再構成し、4次元ガウススプラッティングを用いた効率的な3次元モデリングアプローチを導入する。実験により、本手法が、実写画像から3D人間アバターのフォトリアリスティックなリアルタイムアニメーションを実現することを実証し、その有効性と汎化能力を示す。
要約(オリジナル)
Generating animatable human avatars from a single image is essential for various digital human modeling applications. Existing 3D reconstruction methods often struggle to capture fine details in animatable models, while generative approaches for controllable animation, though avoiding explicit 3D modeling, suffer from viewpoint inconsistencies in extreme poses and computational inefficiencies. In this paper, we address these challenges by leveraging the power of generative models to produce detailed multi-view canonical pose images, which help resolve ambiguities in animatable human reconstruction. We then propose a robust method for 3D reconstruction of inconsistent images, enabling real-time rendering during inference. Specifically, we adapt a transformer-based video generation model to generate multi-view canonical pose images and normal maps, pretraining on a large-scale video dataset to improve generalization. To handle view inconsistencies, we recast the reconstruction problem as a 4D task and introduce an efficient 3D modeling approach using 4D Gaussian Splatting. Experiments demonstrate that our method achieves photorealistic, real-time animation of 3D human avatars from in-the-wild images, showcasing its effectiveness and generalization capability.
arxiv情報
著者 | Lingteng Qiu,Shenhao Zhu,Qi Zuo,Xiaodong Gu,Yuan Dong,Junfei Zhang,Chao Xu,Zhe Li,Weihao Yuan,Liefeng Bo,Guanying Chen,Zilong Dong |
発行日 | 2024-12-03 18:55:39+00:00 |
arxivサイト | arxiv_id(pdf) |