要約
アニメート可能な人間のレンダリングにおける最近の進歩は目覚ましい成果を上げていますが、各主題のテスト時間の最適化が必要であり、これが現実世界のアプリケーションにとって重大な制限となる可能性があります。
これに対処するために、テスト時間の最適化を行わずに単眼ビデオからアニメーション可能な人間をレンダリングする新しい方法である、Generalizable Neural Human Renderer (GNH) を学習するという困難なタスクに取り組みます。
私たちのコアメソッドは、明示的なボディ事前分布とマルチビュージオメトリを利用して、入力ビデオから出力画像プレーンに外観情報を転送することに焦点を当てています。
意図したポーズで被写体をレンダリングするために、より一般的なレイ サンプリングまたはラスタライズ ベースのレンダリング モジュールを使用せずに、単純な CNN ベースのイメージ レンダラーを利用します。
当社の GNH は、3 段階のプロセスにより、目に見えない被写体を含む驚くべき一般化可能でフォトリアリスティックなレンダリングを実現します。
我々は、GNH が現在の最先端の方法を大幅に上回っており、特に LPIPS で 31.3% の改善を達成していることを定量的および定性的に実証しています。
要約(オリジナル)
While recent advancements in animatable human rendering have achieved remarkable results, they require test-time optimization for each subject which can be a significant limitation for real-world applications. To address this, we tackle the challenging task of learning a Generalizable Neural Human Renderer (GNH), a novel method for rendering animatable humans from monocular video without any test-time optimization. Our core method focuses on transferring appearance information from the input video to the output image plane by utilizing explicit body priors and multi-view geometry. To render the subject in the intended pose, we utilize a straightforward CNN-based image renderer, foregoing the more common ray-sampling or rasterizing-based rendering modules. Our GNH achieves remarkable generalizable, photorealistic rendering with unseen subjects with a three-stage process. We quantitatively and qualitatively demonstrate that GNH significantly surpasses current state-of-the-art methods, notably achieving a 31.3% improvement in LPIPS.
arxiv情報
著者 | Mana Masuda,Jinhyung Park,Shun Iwase,Rawal Khirodkar,Kris Kitani |
発行日 | 2024-04-22 14:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google