IDOL: Instant Photorealistic 3D Human Creation from a Single Image

要約

人間の外観やポーズは多様であり、利用できる高品質のトレーニング データが限られているため、単一の画像から高忠実度でアニメーション化可能な 3D 全身アバターを作成することは困難な作業です。
迅速かつ高品質な人間の再構成を実現するために、この研究ではデータセット、モデル、表現の観点からタスクを再考します。
まず、100K の多様でフォトリアリスティックな人間の画像のセットで構成される、人間を中心とした大規模な GENerated データセット HuGe100K を紹介します。
各セットには、ポーズ制御可能な画像からマルチビューへのモデルを使用して生成された、特定の人間のポーズの 24 ビュー フレームが含まれています。
次に、HuGe100K 内のビュー、ポーズ、外観の多様性を活用して、与えられた人間の画像から均一空間内の 3D 人間のガウス表現を予測するためのスケーラブルなフィードフォワード変換モデルを開発します。
このモデルは、人間のポーズ、体型、衣服の形状、テクスチャを解きほぐすようにトレーニングされています。
推定されたガウスは、後処理なしでアニメーション化できます。
私たちは、提案されたデータセットと手法の有効性を検証するために包括的な実験を実施します。
私たちのモデルは、単一の GPU を使用して、単一の入力画像から 1K 解像度でフォトリアリスティックな人間を効率的に再構築する能力を即座に実証します。
さらに、形状やテクスチャの編集タスクだけでなく、さまざまなアプリケーションもシームレスにサポートします。

要約(オリジナル)

Creating a high-fidelity, animatable 3D full-body avatar from a single image is a challenging task due to the diverse appearance and poses of humans and the limited availability of high-quality training data. To achieve fast and high-quality human reconstruction, this work rethinks the task from the perspectives of dataset, model, and representation. First, we introduce a large-scale HUman-centric GEnerated dataset, HuGe100K, consisting of 100K diverse, photorealistic sets of human images. Each set contains 24-view frames in specific human poses, generated using a pose-controllable image-to-multi-view model. Next, leveraging the diversity in views, poses, and appearances within HuGe100K, we develop a scalable feed-forward transformer model to predict a 3D human Gaussian representation in a uniform space from a given human image. This model is trained to disentangle human pose, body shape, clothing geometry, and texture. The estimated Gaussians can be animated without post-processing. We conduct comprehensive experiments to validate the effectiveness of the proposed dataset and method. Our model demonstrates the ability to efficiently reconstruct photorealistic humans at 1K resolution from a single input image using a single GPU instantly. Additionally, it seamlessly supports various applications, as well as shape and texture editing tasks.

arxiv情報

著者 Yiyu Zhuang,Jiaxi Lv,Hao Wen,Qing Shuai,Ailing Zeng,Hao Zhu,Shifeng Chen,Yujiu Yang,Xun Cao,Wei Liu
発行日 2024-12-19 15:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, 68U05, cs.CV, cs.GR, cs.LG, I.2.10 パーマリンク