要約
以前のシングルビューベースの3Dヒューマン再構成方法は、新しいビューの合成に大きな進歩を遂げましたが、単一の画像入力からのアニメーション可能なアバターのビューは整合性とポーズ親和性の両方の結果を合成することは依然として課題です。
2Dキャラクターアニメーションの成功に動機付けられ、生成事前のシングルビューヒト拡散モデルである humangif を提案します。
具体的には、シングルビューベースの3D人間の新規ビューを策定し、合成をシングル条件付けされたヒト拡散プロセスとして策定し、基礎拡散モデルから生成前の事前を利用します。
細かく一貫した新規ビューとポーズ合成を確保するために、HumangifにヒトNERFモジュールを導入して、入力画像から空間的に整列した機能を学習し、相対的なカメラと人間のポーズ変換を暗黙的にキャプチャします。
さらに、最適化中に画像レベルの損失を導入して、拡散モデルの潜在スペースと画像スペースのギャップを埋めることができます。
RenderPeopleおよびDNAレンダリングデータセットに関する広範な実験は、Humangifが新しいビューとポーズ統合の一般化を改善し、最高の知覚パフォーマンスを達成することを示しています。
要約(オリジナル)
While previous single-view-based 3D human reconstruction methods made significant progress in novel view synthesis, it remains a challenge to synthesize both view-consistent and pose-consistent results for animatable human avatars from a single image input. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.
arxiv情報
著者 | Shoukang Hu,Takuya Narihira,Kazumi Fukuda,Ryosuke Sawata,Takashi Shibuya,Yuki Mitsufuji |
発行日 | 2025-02-17 17:55:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google