MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

要約

単一画像による人間の再構成に関する既存の研究は、トレーニング データが不十分であることや、包括的な多視点知識が不足しているため 3D の不一致が原因で一般化性が弱いという問題があります。
この論文では、単一の参照画像から高品質の新しいビュー画像を生成するように設計された人間固有のマルチビュー拡散モデルである MagicMan を紹介します。
その中核として、一般化可能性のための事前生成として事前トレーニングされた 2D 拡散モデルを活用し、3D 認識を促進する前の 3D ボディとしてパラメトリック SMPL-X モデルを使用します。
3D 人物再構成を改善するために高密度のマルチビュー生成を達成しながら一貫性を維持するという重要な課題に取り組むために、まずハイブリッド マルチビュー アテンションを導入して、異なるビュー間での効率的かつ徹底的な情報交換を促進します。
さらに、RGB ドメインと通常のドメインの両方で同時生成を実行するためのジオメトリ対応デュアル ブランチを提供し、ジオメトリ キューを介して一貫性をさらに強化します。
最後に重要なことですが、参照画像と矛盾する不正確な SMPL-X 推定から生じる不適切な問題に対処するために、生成されたマルチ画像の品質と一貫性を向上させながら SMPL-X の精度を段階的に最適化する新しい反復改良戦略を提案します。
-ビュー。
広範な実験結果は、私たちの方法が新しいビューの合成とその後の3D人間再構成タスクの両方において既存のアプローチよりも大幅に優れていることを示しています。

要約(オリジナル)

Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

arxiv情報

著者 Xu He,Xiaoyu Li,Di Kang,Jiangnan Ye,Chaopeng Zhang,Liyang Chen,Xiangjun Gao,Han Zhang,Zhiyong Wu,Haolin Zhuang
発行日 2024-08-26 12:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク