要約
タイトル:『LatentAvatar: Learning Latent Expression Code for Expressive Neural Head Avatar』
要約:
– アニメーション可能なNeRFベースのヘッドアバターには、顔のテンプレートに基づくものと、テンプレートの表情係数を駆動信号とするアプローチが存在する。
– これまでの研究では、テンプレートの表情パワーとトラッキングの精度によって性能が制限されてしまうことが問題とされていた。
– 本研究では、LatentAvatarという、潜在的な表現コードによって駆動される表現豊かなニューラルヘッドアバターを提案している。
– この方法により、テンプレートを用いない完全なself-supervisedな学習が可能となり、表情や追跡の問題から解放される。
– この研究では、モノクルポートレートビデオから人物特有の潜在的な表現コードを学習するために、潜在ヘッドNeRFを利用している。
– また、異なる被験者間で共有される潜在的表現コードを学習するために、Y字型ネットワークをさらに設計している。
– NeRF内のフォトメトリック再構築目的を最適化することで、潜在的な表現コードは3Dに意識され、詳細な表情を正確に捉えている。
– さらに、共有された潜在的表現コードと個人固有の設定で学習された潜在的表現コードの間のマッピングを学習することで、異なる被写体間で表現的に再現することができる。
– 実験結果は、本研究のLatentAvatarが、難解な表情や歯、さらには目球の微妙な動きを捉えることができ、これまでの研究に比べ、量的・質的両方の面で優れていることを示している。
要約(オリジナル)
Existing approaches to animatable NeRF-based head avatars are either built upon face templates or use the expression coefficients of templates as the driving signal. Despite the promising progress, their performances are heavily bound by the expression power and the tracking accuracy of the templates. In this work, we present LatentAvatar, an expressive neural head avatar driven by latent expression codes. Such latent expression codes are learned in an end-to-end and self-supervised manner without templates, enabling our method to get rid of expression and tracking issues. To achieve this, we leverage a latent head NeRF to learn the person-specific latent expression codes from a monocular portrait video, and further design a Y-shaped network to learn the shared latent expression codes of different subjects for cross-identity reenactment. By optimizing the photometric reconstruction objectives in NeRF, the latent expression codes are learned to be 3D-aware while faithfully capturing the high-frequency detailed expressions. Moreover, by learning a mapping between the latent expression code learned in shared and person-specific settings, LatentAvatar is able to perform expressive reenactment between different subjects. Experimental results show that our LatentAvatar is able to capture challenging expressions and the subtle movement of teeth and even eyeballs, which outperforms previous state-of-the-art solutions in both quantitative and qualitative comparisons. Project page: https://www.liuyebin.com/latentavatar.
arxiv情報
著者 | Yuelang Xu,Hongwen Zhang,Lizhen Wang,Xiaochen Zhao,Han Huang,Guojun Qi,Yebin Liu |
発行日 | 2023-05-03 06:41:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI