Representing Volumetric Videos as Dynamic MLP Maps

要約

タイトル:動的MLPマップとして容積的ビデオを表現する

要約:

– この論文は、動的シーンのリアルタイムビューシンセシスのための容積的ビデオの新しい表現方法を紹介している。
– 最近のニューラルシーンの表現の進歩により、複雑な静止シーンをモデル化およびレンダリングする驚異的な能力が示されているが、動的シーンを表現することは、レンダリング速度が遅いか、ストレージコストが高いために直接的ではない。
– この問題を解決するための主なアイデアは、各フレームの輝度場を、浅いMLPネットワークのセットとして表現することであり、そのパラメータは、MLPマップと呼ばれる2Dグリッドに保存され、すべてのフレームで共有される2D CNNデコーダーによって動的に予測される。
– 浅いMLPを使用して3Dシーンを表現することは、レンダリング速度を大幅に改善することができ、明示的にそれらを保存する代わりに、共有2D CNNによってMLPパラメータを動的に予測することでストレージコストを低く抑えることができる。
– 実験は、提案手法がNHRおよびZJU-MoCapデータセットで最新のレンダリング品質を実現し、RTX 3090 GPU上の$512 \times 512$画像で41.7 fpsのリアルタイムレンダリングの効率的であることを示している。コードはhttps://zju3dv.github.io/mlp_maps/で利用可能である。

要約(オリジナル)

This paper introduces a novel representation of volumetric videos for real-time view synthesis of dynamic scenes. Recent advances in neural scene representations demonstrate their remarkable capability to model and render complex static scenes, but extending them to represent dynamic scenes is not straightforward due to their slow rendering speed or high storage cost. To solve this problem, our key idea is to represent the radiance field of each frame as a set of shallow MLP networks whose parameters are stored in 2D grids, called MLP maps, and dynamically predicted by a 2D CNN decoder shared by all frames. Representing 3D scenes with shallow MLPs significantly improves the rendering speed, while dynamically predicting MLP parameters with a shared 2D CNN instead of explicitly storing them leads to low storage cost. Experiments show that the proposed approach achieves state-of-the-art rendering quality on the NHR and ZJU-MoCap datasets, while being efficient for real-time rendering with a speed of 41.7 fps for $512 \times 512$ images on an RTX 3090 GPU. The code is available at https://zju3dv.github.io/mlp_maps/.

arxiv情報

著者 Sida Peng,Yunzhi Yan,Qing Shuai,Hujun Bao,Xiaowei Zhou
発行日 2023-04-13 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク