PF-LHM: 3D Animatable Avatar Reconstruction from Pose-free Articulated Human Images

要約

カメラや人間のポーズ情報のない明確な被験者のカジュアルにキャプチャされた画像からアニメーション可能な3Dヒトを再構築することは、見解、閉塞、および構造的事前層の欠如のために、実用的でありながら挑戦的な作業です。
最適化ベースの方法では、単眼またはマルチビューのビデオから高忠実度の結果を生成できますが、正確なポーズ推定とゆっくりとした反復最適化が必要であり、制約のないシナリオのスケーラビリティを制限します。
最近のフィードフォワードアプローチにより、効率的なシングルイメージの再構築が可能になりますが、複数の入力画像を効果的に活用して曖昧さを低下させ、再構築の精度を向上させるのに苦労しています。
これらの課題に対処するために、1つまたは複数のカジュアルにキャプチャされたポーズフリーの画像から数秒で高品質の3Dアバターを生成する大規模な人間の再構成モデ​​ルであるPF-LHMを提案します。
私たちのアプローチでは、マルチモーダルの注意を払って階層的な幾何学的なポイント機能とマルチビューイメージ機能を融合する効率的なエンコーダデコーダーポイントイメージトランスアーキテクチャを紹介します。
融合した機能は、3Dガウススプラットを使用して表される詳細なジオメトリと外観を回復するためにデコードされています。
実際のデータセットと合成データセットの両方での広範な実験は、私たちの方法がシングルイメージとマルチイメージ3Dの人間の再構成を統合し、カメラや人間のポーズ注釈を必要とせずに高忠実でアニメーション性の3Dヒトアバターを達成することを示しています。
コードとモデルは一般に公開されます。

要約(オリジナル)

Reconstructing an animatable 3D human from casually captured images of an articulated subject without camera or human pose information is a practical yet challenging task due to view misalignment, occlusions, and the absence of structural priors. While optimization-based methods can produce high-fidelity results from monocular or multi-view videos, they require accurate pose estimation and slow iterative optimization, limiting scalability in unconstrained scenarios. Recent feed-forward approaches enable efficient single-image reconstruction but struggle to effectively leverage multiple input images to reduce ambiguity and improve reconstruction accuracy. To address these challenges, we propose PF-LHM, a large human reconstruction model that generates high-quality 3D avatars in seconds from one or multiple casually captured pose-free images. Our approach introduces an efficient Encoder-Decoder Point-Image Transformer architecture, which fuses hierarchical geometric point features and multi-view image features through multimodal attention. The fused features are decoded to recover detailed geometry and appearance, represented using 3D Gaussian splats. Extensive experiments on both real and synthetic datasets demonstrate that our method unifies single- and multi-image 3D human reconstruction, achieving high-fidelity and animatable 3D human avatars without requiring camera and human pose annotations. Code and models will be released to the public.

arxiv情報

著者 Lingteng Qiu,Peihao Li,Qi Zuo,Xiaodong Gu,Yuan Dong,Weihao Yuan,Siyu Zhu,Xiaoguang Han,Guanying Chen,Zilong Dong
発行日 2025-06-16 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク