You Only Train Once: Multi-Identity Free-Viewpoint Neural Human Rendering from Monocular Videos

要約

You Only Train Once (YOTO) を紹介します。これは、単眼ビデオからの 1 回だけのトレーニングを介して、異なるモーションを持つさまざまな人間のアイデンティティの自由な視点のレンダリングを実行する、動的な人間生成フレームワークです。
このタスクのほとんどの以前の作業では、個別の人間のアイデンティティを含む入力ビデオごとに個別に最適化する必要があり、展開にかなりの時間とリソースが必要になり、システムのスケーラビリティと全体的なアプリケーションの可能性が妨げられていました。
このホワイト ペーパーでは、学習可能な ID コードのセットを提案して、マルチ ID 自由視点レンダリングのフレームワークの機能を拡張することと、効果的なポーズ条件付きコード クエリ メカニズムを提案することで、この問題に取り組みます。
リジッドモーション。
YOTO は、設計された ID コードを利用してモデルを調整し、単一の共有ボリューム表現でさまざまな標準的な T ポーズの外観を学習することで、ニューラル ラジアンス フィールド (NeRF) を最適化します。
さらに、統合モデル内の複数のアイデンティティの共同学習により、偶然にも、学習したすべての外観に対して高品質の写真のようにリアルなレンダリングで柔軟なモーション転送が可能になります。
この機能により、仮想現実などの重要なアプリケーションでの使用の可能性が広がります。
ZJU-MoCap と PeopleSnapshot に関する広範な実験結果を提示して、提案したモデルの有効性を明確に示します。
YOTO は、すべての評価メトリクスで最先端のパフォーマンスを示しながら、トレーニングと推論の効率、およびレンダリングの品質において大きなメリットを示しています。
コードとモデルは近日中に公開される予定です。

要約(オリジナル)

We introduce You Only Train Once (YOTO), a dynamic human generation framework, which performs free-viewpoint rendering of different human identities with distinct motions, via only one-time training from monocular videos. Most prior works for the task require individualized optimization for each input video that contains a distinct human identity, leading to a significant amount of time and resources for the deployment, thereby impeding the scalability and the overall application potential of the system. In this paper, we tackle this problem by proposing a set of learnable identity codes to expand the capability of the framework for multi-identity free-viewpoint rendering, and an effective pose-conditioned code query mechanism to finely model the pose-dependent non-rigid motions. YOTO optimizes neural radiance fields (NeRF) by utilizing designed identity codes to condition the model for learning various canonical T-pose appearances in a single shared volumetric representation. Besides, our joint learning of multiple identities within a unified model incidentally enables flexible motion transfer in high-quality photo-realistic renderings for all learned appearances. This capability expands its potential use in important applications, including Virtual Reality. We present extensive experimental results on ZJU-MoCap and PeopleSnapshot to clearly demonstrate the effectiveness of our proposed model. YOTO shows state-of-the-art performance on all evaluation metrics while showing significant benefits in training and inference efficiency as well as rendering quality. The code and model will be made publicly available soon.

arxiv情報

著者 Jaehyeok Kim,Dongyoon Wee,Dan Xu
発行日 2023-03-10 10:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク