HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

要約

シングルイメージの人間の再構築は、デジタルヒューマンモデリングアプリケーションに不可欠ですが、非常に挑戦的なタスクのままです。
現在のアプローチは、その後の3D再構成とアニメーションのためにマルチビュー画像を合成するために生成モデルに依存しています。
ただし、単一の人間のイメージから複数のビューを直接生成することは、幾何学的な矛盾に苦しんでおり、再構築されたモデルの断片化またはぼやけた手足などの問題をもたらします。
これらの制限に取り組むために、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである\ textBf {humandreamer-x}を紹介します。
このフレームワークでは、3Dガウスのスプラッティングは、初期ジオメトリと外観の優先度を提供するための明示的な3D表現として機能します。
この基盤の上に構築された\ TextBF {HumanFixer}は、3DGSレンダリングを復元するように訓練されています。
さらに、マルチビューのヒューマン生成における注意メカニズムに関連する固有の課題を掘り下げ、マルチビュー全体で幾何学的詳細のアイデンティティの一貫性を効果的に強化する注意変調戦略を提案します。
実験結果は、私たちのアプローチが生成と再構築のPSNR品質メトリックをそれぞれ16.45%と12.65%改善し、最大25.62 dBのPSNRを達成し、さまざまな人間の再構築バックボーンモデルへの野生データと適用性に関する一般化能力も示していることを示しています。

要約(オリジナル)

Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce \textbf{HumanDreamer-X}, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, \textbf{HumanFixer} is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

arxiv情報

著者 Boyuan Wang,Runqi Ouyang,Xiaofeng Wang,Zheng Zhu,Guosheng Zhao,Chaojun Ni,Guan Huang,Lihong Liu,Xingang Wang
発行日 2025-04-04 15:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク