要約
私たちは、アパレル全般における人間の俳優の非常にリアルな自由視点ビデオを、まばらなマルチビューの記録から表示まで、前例のない 4K 解像度でリアルタイムにレンダリングする最初のアプローチを紹介します。
推論では、私たちの方法では、動いているアクターとそれぞれの 3D 骨格ポーズの 4 つのカメラ ビューのみが必要です。
幅広の服を着た俳優を扱い、細かいスケールのダイナミックなディテールも再現します。
服のシワ、表情、手のしぐさ。
トレーニング時には、学習ベースのアプローチでは、高密度のマルチビュー ビデオと俳優のリギングされた静的表面スキャンが期待されます。
私たちの方法は 3 つの主要な段階で構成されます。
ステージ 1 は、詳細な動的メッシュ ジオメトリを高品質にキャプチャするためのスケルトン駆動のニューラル アプローチです。
ステージ 2 は、4 つのテスト時のカメラ ビューを入力として使用して、ビュー依存のテクスチャを作成する新しいソリューションです。
最後に、ステージ 3 は、前のステージからの出力を考慮して最終的な 4K 画像をレンダリングする新しい画像ベースのリファインメント ネットワークで構成されます。
私たちのアプローチは、まばらな入力カメラ ビューを使用して、リアルタイム レンダリングの解像度と品質の新しいベンチマークを確立し、没入型テレプレゼンスの可能性を解き放ちます。
要約(オリジナル)
We present the first approach to render highly realistic free-viewpoint videos of a human actor in general apparel, from sparse multi-view recording to display, in real-time at an unprecedented 4K resolution. At inference, our method only requires four camera views of the moving actor and the respective 3D skeletal pose. It handles actors in wide clothing, and reproduces even fine-scale dynamic detail, e.g. clothing wrinkles, face expressions, and hand gestures. At training time, our learning-based approach expects dense multi-view video and a rigged static surface scan of the actor. Our method comprises three main stages. Stage 1 is a skeleton-driven neural approach for high-quality capture of the detailed dynamic mesh geometry. Stage 2 is a novel solution to create a view-dependent texture using four test-time camera views as input. Finally, stage 3 comprises a new image-based refinement network rendering the final 4K image given the output from the previous stages. Our approach establishes a new benchmark for real-time rendering resolution and quality using sparse input camera views, unlocking possibilities for immersive telepresence.
arxiv情報
著者 | Ashwath Shetty,Marc Habermann,Guoxing Sun,Diogo Luvizon,Vladislav Golyanik,Christian Theobalt |
発行日 | 2023-12-12 16:45:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google