PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar Modeling

要約

タイトル: 人間のアバターモデリングのための関節構造ポーズ埋め込みの学習

要約:
– 人間のアバターモデリングには、低周波のドライブポーズから高周波のダイナミックな人間の外見にマッピングするモデル化が必要であるため、高品質な人間の詳細を表現することができる効果的なポーズエンコーディング方法が必要です。
– PoseVocabは、ダイナミックな人間の外見を学ぶための最適なポーズ埋め込みを発見するようにネットワークに奨励する新しいポーズエンコーディング方法です。 PoseVocabは、キー・ポーズとエンコーディングを構築し、トレーニングポーズに基づいて潜在空間を生成します。
– 関節構造ポーズ埋め込みは、動的な外観をキー・ポーズの下でエンコードし、グローバル・ポース・ベクトルを関節構造のものに分解して、各関節のモーションに関連する外観変動をよりよく学ぶことができます。
– PoseVocabは、メモリ効率を保ちながらポーズ埋め込みの表現能力を向上するために、より細かい粒度の人間の外観詳細をモデル化するための効果的な3D表現である特徴線を導入します。
– PoseVocabは、動的な人間合成のための条件付けポーズ特徴を補間するために階層クエリ戦略を導入することができます。 PoseVocabは、新しいポーズの下でリアルな、汎用的なアニメーションを実現することができます。
– 実験により、PoseVocabは、合成品質の観点から他の最先端のベースラインよりも優れた結果を示します。 PoseVocabのコードは、https://github.com/lizhe00/PoseVocabで利用可能です。

要約(オリジナル)

Creating pose-driven human avatars is about modeling the mapping from the low-frequency driving pose to high-frequency dynamic human appearances, so an effective pose encoding method that can encode high-fidelity human details is essential to human avatar modeling.To this end, we present PoseVocab, a novel pose encoding method that encourages the network to discover the optimal pose embeddings for learning the dynamic human appearance. Given multi-view RGB videos of a character, PoseVocab constructs key poses and latent embeddings based on the training poses. To achieve pose generalization and temporal consistency, we sample key rotations in $so(3)$ of each joint rather than the global pose vectors, and assign a pose embedding to each sampled key rotation. These joint-structured pose embeddings not only encode the dynamic appearances under different key poses, but also factorize the global pose embedding into joint-structured ones to better learn the appearance variation related to the motion of each joint. To improve the representation ability of the pose embedding while maintaining memory efficiency, we introduce feature lines, a compact yet effective 3D representation, to model more fine-grained details of human appearances. Furthermore, given a query pose and a spatial position, a hierarchical query strategy is introduced to interpolate pose embeddings and acquire the conditional pose feature for dynamic human synthesis. Overall, PoseVocab effectively encodes the dynamic details of human appearance and enables realistic and generalized animation under novel poses. Experiments show that our method outperforms other state-of-the-art baselines both qualitatively and quantitatively in terms of synthesis quality. Code is available at https://github.com/lizhe00/PoseVocab.

arxiv情報

著者 Zhe Li,Zerong Zheng,Yuxiao Liu,Boyao Zhou,Yebin Liu
発行日 2023-04-25 17:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク