要約
この論文では、新しい非剛体モーション モデリング アプローチを介して単眼人間ビデオの自由視点レンダリングを実行するように設計されたフレームワークである、モーション指向合成ニューラル放射フィールド (MoCo-NeRF) を紹介します。
ダイナミックな衣服を着た人間のコンテキストでは、複雑な布のダイナミクスにより、骨格の関節とは本質的に異なり、レンダリングの品質にとって非常に重要な非剛体モーションが生成されます。
従来のアプローチでは、骨格の変換に加えて、非剛体の動きを空間 (3D) 偏差としてモデル化します。
ただし、直接の監督なしでは学習の複雑さが高いため、最適な品質を達成するのは時間がかかるか、困難です。
この問題をターゲットにするために、レンダリングでのより直接的な色の監視の恩恵を受け、学習プロセスの複雑さを軽減するための事前として剛体放射フィールドを利用するために、非剛体モーションを放射輝度残差フィールドとしてモデル化する新しいアプローチを提案します。
私たちのアプローチでは、単一の多重解像度ハッシュ エンコーディング (MHE) を利用して、剛体骨格の動きから標準 T ポーズ表現と非剛体動きの放射残差フィールドを同時に学習します。
さらに、トレーニング効率と使いやすさの両方をさらに向上させるために、非剛体動作をモデリングするための効果的な設計のおかげで、MoCo-NeRF を拡張して、単一のフレームワーク内で複数の被験者の同時トレーニングをサポートします。
このスケーラビリティは、複数のローカル MHE に加えて、グローバル MHE と学習可能な ID コードを統合することによって実現されます。
ZJU-MoCap と MonoCap に関する広範な結果を提示し、単一被写体設定と複数被写体設定の両方で最先端のパフォーマンスを明確に実証します。
コードとモデルはプロジェクト ページ https://stevejaehyeok.github.io/publications/moco-nerf で公開されます。
要約(オリジナル)
This paper introduces Motion-oriented Compositional Neural Radiance Fields (MoCo-NeRF), a framework designed to perform free-viewpoint rendering of monocular human videos via novel non-rigid motion modeling approach. In the context of dynamic clothed humans, complex cloth dynamics generate non-rigid motions that are intrinsically distinct from skeletal articulations and critically important for the rendering quality. The conventional approach models non-rigid motions as spatial (3D) deviations in addition to skeletal transformations. However, it is either time-consuming or challenging to achieve optimal quality due to its high learning complexity without a direct supervision. To target this problem, we propose a novel approach of modeling non-rigid motions as radiance residual fields to benefit from more direct color supervision in the rendering and utilize the rigid radiance fields as a prior to reduce the complexity of the learning process. Our approach utilizes a single multiresolution hash encoding (MHE) to concurrently learn the canonical T-pose representation from rigid skeletal motions and the radiance residual field for non-rigid motions. Additionally, to further improve both training efficiency and usability, we extend MoCo-NeRF to support simultaneous training of multiple subjects within a single framework, thanks to our effective design for modeling non-rigid motions. This scalability is achieved through the integration of a global MHE and learnable identity codes in addition to multiple local MHEs. We present extensive results on ZJU-MoCap and MonoCap, clearly demonstrating state-of-the-art performance in both single- and multi-subject settings. The code and model will be made publicly available at the project page: https://stevejaehyeok.github.io/publications/moco-nerf.
arxiv情報
著者 | Jaehyeok Kim,Dongyoon Wee,Dan Xu |
発行日 | 2024-07-16 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google