要約
人間の形状学習における最近の進歩により、ニューラル暗黙的モデルが、限られた数のビューから、さらには単一の RGB 画像からでも 3D 人間の表面を生成するのに効果的であることが示されています。
しかし、既存の単眼アプローチでは、顔、手、布のシワなどの微細な幾何学的ディテールを再現するのに依然として苦労しています。
また、深度のあいまいさが生じやすく、カメラの光軸に沿って幾何学形状が歪んでしまいます。
この論文では、単一視点の RGB-D 画像から任意の 3D 人間の形状を前例のないレベルの精度で再構成する新しい方法である ANIM を導入することにより、再構成プロセスに深度観察を組み込む利点を探ります。
私たちのモデルは、多重解像度のピクセル位置合わせされた特徴とボクセル位置合わせされた特徴の両方から幾何学的詳細を学習して、深度情報を活用して空間関係を可能にし、深度の曖昧さを軽減します。
深度監視戦略を導入することで、再構成された形状の品質をさらに向上させます。これにより、再構成された表面上にある点の符号付き距離フィールド推定の精度が向上します。
実験では、ANIM が、RGB、表面法線、点群、または RGB-D データを入力として使用する最先端の作業よりも優れたパフォーマンスを発揮することが実証されています。
さらに、消費者向けの RGB-D カメラと組み合わせた高品質のスキャンで構成される新しいマルチモーダル データセットである ANIM-Real と、ANIM を微調整するためのプロトコルを紹介し、現実世界の人間のキャプチャからの高品質の再構成を可能にします。
。
要約(オリジナル)
Recent progress in human shape learning, shows that neural implicit models are effective in generating 3D human surfaces from limited number of views, and even from a single RGB image. However, existing monocular approaches still struggle to recover fine geometric details such as face, hands or cloth wrinkles. They are also easily prone to depth ambiguities that result in distorted geometries along the camera optical axis. In this paper, we explore the benefits of incorporating depth observations in the reconstruction process by introducing ANIM, a novel method that reconstructs arbitrary 3D human shapes from single-view RGB-D images with an unprecedented level of accuracy. Our model learns geometric details from both multi-resolution pixel-aligned and voxel-aligned features to leverage depth information and enable spatial relationships, mitigating depth ambiguities. We further enhance the quality of the reconstructed shape by introducing a depth-supervision strategy, which improves the accuracy of the signed distance field estimation of points that lie on the reconstructed surface. Experiments demonstrate that ANIM outperforms state-of-the-art works that use RGB, surface normals, point cloud or RGB-D data as input. In addition, we introduce ANIM-Real, a new multi-modal dataset comprising high-quality scans paired with consumer-grade RGB-D camera, and our protocol to fine-tune ANIM, enabling high-quality reconstruction from real-world human capture.
arxiv情報
著者 | Marco Pesavento,Yuanlu Xu,Nikolaos Sarafianos,Robert Maier,Ziyan Wang,Chun-Han Yao,Marco Volino,Edmond Boyer,Adrian Hilton,Tony Tung |
発行日 | 2024-03-15 14:45:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google