DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human Avatars

要約

単一の RGB 画像からリアルなリグ全身アバターを作成するアプローチである DINAR を紹介します。
これまでの研究と同様に、私たちの手法では、SMPL-X ボディ モデルと組み合わせたニューラル テクスチャを使用して、アバターのアニメーション化と迅速な推論を維持しながら、写真のようにリアルな品質を実現します。
テクスチャを復元するために、潜在拡散モデルを使用し、そのようなモデルをニューラル テクスチャ空間でトレーニングする方法を示します。
拡散モデルを使用すると、正面から見た人の背中など、目に見えない大きな領域を現実的に再構築できます。
パイプラインのモデルは 2D 画像とビデオのみを使用してトレーニングされます。
実験では、私たちのアプローチは最先端のレンダリング品質と、新しいポーズや視点への優れた一般化を実現しました。
特に、このアプローチは SnapshotPeople 公開ベンチマークの最先端を改善します。

要約(オリジナル)

We present DINAR, an approach for creating realistic rigged fullbody avatars from single RGB images. Similarly to previous works, our method uses neural textures combined with the SMPL-X body model to achieve photo-realistic quality of avatars while keeping them easy to animate and fast to infer. To restore the texture, we use a latent diffusion model and show how such model can be trained in the neural texture space. The use of the diffusion model allows us to realistically reconstruct large unseen regions such as the back of a person given the frontal view. The models in our pipeline are trained using 2D images and videos only. In the experiments, our approach achieves state-of-the-art rendering quality and good generalization to new poses and viewpoints. In particular, the approach improves state-of-the-art on the SnapshotPeople public benchmark.

arxiv情報

著者 David Svitov,Dmitrii Gudkov,Renat Bashirov,Victor Lempitsky
発行日 2023-08-16 17:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク