要約
単眼 3D ヒューマン パフォーマンス キャプチャは、没入型の体験を実現するためのコンピューター グラフィックスやビジョンの多くのアプリケーションに不可欠です。
ただし、人間を詳細にキャプチャするには、骨格のポーズ、衣服、手のジェスチャー、顔の表情を含む動的な表面など、複数の側面を追跡する必要があります。
これらすべてのコンポーネントの共同追跡を可能にする既存の単眼方法はありません。
この目的のために、単一の RGB ビデオから人間のポーズ、服装、表情、手を同時にキャプチャする新しいニューラル ヒューマン パフォーマンス キャプチャ アプローチである HiFECap を提案します。
私たちが提案したネットワーク アーキテクチャ、慎重に設計されたトレーニング戦略、パラメトリックな顔と手のモデルをテンプレート メッシュに緊密に統合することで、これらすべての個々の側面をキャプチャできることを示します。
重要なことに、私たちの方法は、衣服のしわの変形など、以前の作品よりも高頻度の詳細もキャプチャします。
さらに、HiFECap が最先端のヒューマン パフォーマンス キャプチャ アプローチよりも質的および量的に優れていることを示し、人間のすべての側面を初めてキャプチャします。
要約(オリジナル)
Monocular 3D human performance capture is indispensable for many applications in computer graphics and vision for enabling immersive experiences. However, detailed capture of humans requires tracking of multiple aspects, including the skeletal pose, the dynamic surface, which includes clothing, hand gestures as well as facial expressions. No existing monocular method allows joint tracking of all these components. To this end, we propose HiFECap, a new neural human performance capture approach, which simultaneously captures human pose, clothing, facial expression, and hands just from a single RGB video. We demonstrate that our proposed network architecture, the carefully designed training strategy, and the tight integration of parametric face and hand models to a template mesh enable the capture of all these individual aspects. Importantly, our method also captures high-frequency details, such as deforming wrinkles on the clothes, better than the previous works. Furthermore, we show that HiFECap outperforms the state-of-the-art human performance capture approaches qualitatively and quantitatively while for the first time capturing all aspects of the human.
arxiv情報
著者 | Yue Jiang,Marc Habermann,Vladislav Golyanik,Christian Theobalt |
発行日 | 2022-10-11 17:57:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google