AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion

要約

画像間のアバター世代の既存の方法は、実際のアプリケーションに適した非常に詳細なアニメーション対応のアバターを作成するために苦労しています。
Adahumanを紹介します。これは、単一の内部画像から高忠実度のアニメーション可能な3Dアバターを生成する新しいフレームワークです。
Adahumanには、2つの重要なイノベーションが組み込まれています。(1)各拡散ステップでの対応する3Dガウススプラット(3DG)再構成とともに、任意のポーズで一貫したマルチビュー画像を合成するポーズ条件付き3Dジョイント拡散モデル。
(2)画像から画像の洗練を通じてローカルの身体部分の詳細を強化し、新しい作物認識カメラレイマップを使用してシームレスに統合し、まとまりのある詳細な3Dアバターを生成する組成3DGS洗練モジュール。
これらのコンポーネントにより、Adahumanは、最小限の自己閉鎖を備えた非常に現実的な標準化されたAポーズアバターを生成し、入力モーションでリギングとアニメーションを可能にします。
パブリックベンチマークとワイルド画像に関する広範な評価は、Adahumanがアバターの再構築と後退の両方で最新の方法を大幅に上回ることを示しています。
コードとモデルは、研究目的で公開されます。

要約(オリジナル)

Existing methods for image-to-3D avatar generation struggle to produce highly detailed, animation-ready avatars suitable for real-world applications. We introduce AdaHuman, a novel framework that generates high-fidelity animatable 3D avatars from a single in-the-wild image. AdaHuman incorporates two key innovations: (1) A pose-conditioned 3D joint diffusion model that synthesizes consistent multi-view images in arbitrary poses alongside corresponding 3D Gaussian Splats (3DGS) reconstruction at each diffusion step; (2) A compositional 3DGS refinement module that enhances the details of local body parts through image-to-image refinement and seamlessly integrates them using a novel crop-aware camera ray map, producing a cohesive detailed 3D avatar. These components allow AdaHuman to generate highly realistic standardized A-pose avatars with minimal self-occlusion, enabling rigging and animation with any input motion. Extensive evaluation on public benchmarks and in-the-wild images demonstrates that AdaHuman significantly outperforms state-of-the-art methods in both avatar reconstruction and reposing. Code and models will be publicly available for research purposes.

arxiv情報

著者 Yangyi Huang,Ye Yuan,Xueting Li,Jan Kautz,Umar Iqbal
発行日 2025-05-30 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク