Pose Modulated Avatars from Video

要約

基礎となるスケルトンによって駆動される Neural Radiance Fields (NeRF) を使用して、まばらなカメラのセットから動的な人間の動きと形状を再構築できるようになりました。
ただし、スケルトンのポーズに関連した布地と皮膚の変形をモデル化するという課題が残っています。
暗黙的に学習されるかプロキシ サーフェスに依存する既存のアバター モデルとは異なり、私たちのアプローチは、ポーズが異なると固有の周波数割り当てが必要になるという観察によって動機づけられています。
この区別を無視すると、滑らかな領域でノイズの多いアーティファクトが生じたり、鮮明な領域で粒度の細かいテクスチャや形状の詳細がぼやけたりします。
周波数領域で適応的かつ明示的な 2 分岐ニューラル ネットワークを開発します。
最初のブランチは、スケルトンのポーズを入力として受け取り、身体部分間の相関関係をローカルにモデル化するグラフ ニューラル ネットワークです。
2 番目のブランチでは、これらの相関特徴を一連のグローバル周波数に結合し、特徴エンコーディングを変調します。
私たちの実験は、詳細の保持と一般化機能の点で、私たちのネットワークが最先端の方法よりも優れていることを示しています。

要約(オリジナル)

It is now possible to reconstruct dynamic human motion and shape from a sparse set of cameras using Neural Radiance Fields (NeRF) driven by an underlying skeleton. However, a challenge remains to model the deformation of cloth and skin in relation to skeleton pose. Unlike existing avatar models that are learned implicitly or rely on a proxy surface, our approach is motivated by the observation that different poses necessitate unique frequency assignments. Neglecting this distinction yields noisy artifacts in smooth areas or blurs fine-grained texture and shape details in sharp regions. We develop a two-branch neural network that is adaptive and explicit in the frequency domain. The first branch is a graph neural network that models correlations among body parts locally, taking skeleton pose as input. The second branch combines these correlation features to a set of global frequencies and then modulates the feature encoding. Our experiments demonstrate that our network outperforms state-of-the-art methods in terms of preserving details and generalization capabilities.

arxiv情報

著者 Chunjin Song,Bastian Wandt,Helge Rhodin
発行日 2023-09-29 15:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク