Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes

要約

この論文は、マルチビュー ビデオからの動的なビュー合成の課題に取り組むことを目的としています。
重要な観察は、以前のグリッドベースの方法は一貫したレンダリングを提供しますが、複雑な動的シーンの外観の詳細を捉えるには不十分であり、マルチビュー画像ベースのレンダリング方法が反対の特性を示す領域です。
2 つの世界の長所を組み合わせるために、グリッドベースのジオメトリ表現とマルチビュー画像ベースの外観表現で構成されるハイブリッド シーン表現である Im4D を導入します。
具体的には、動的ジオメトリは、時空間特徴面と小規模な MLP ネットワークで構成される 4D 密度関数としてエンコードされ、シーン構造をグローバルにモデル化し、レンダリングの一貫性を促進します。
シーンの外観をネットワークで完全に記憶するのではなく、オリジナルの多視点ビデオと画像の特徴から 3D 点の色を予測することを学習するネットワークによって表現することで、ネットワークの学習が自然に容易になります。
私たちの手法は、DyNeRF、ZJU-MoCap、NHR、DNA-Rendering、ENeRF-Outdoor データセットを含む 5 つの動的ビュー合成データセットで評価されます。
その結果、Im4D はレンダリング品質において最先端のパフォーマンスを示し、効率的にトレーニングできると同時に、単一の RTX 3090 GPU で 512×512 の画像に対して 79.8 FPS の速度のリアルタイム レンダリングを実現できることがわかりました。

要約(オリジナル)

This paper aims to tackle the challenge of dynamic view synthesis from multi-view videos. The key observation is that while previous grid-based methods offer consistent rendering, they fall short in capturing appearance details of a complex dynamic scene, a domain where multi-view image-based rendering methods demonstrate the opposite properties. To combine the best of two worlds, we introduce Im4D, a hybrid scene representation that consists of a grid-based geometry representation and a multi-view image-based appearance representation. Specifically, the dynamic geometry is encoded as a 4D density function composed of spatiotemporal feature planes and a small MLP network, which globally models the scene structure and facilitates the rendering consistency. We represent the scene appearance by the original multi-view videos and a network that learns to predict the color of a 3D point from image features, instead of memorizing detailed appearance totally with networks, thereby naturally making the learning of networks easier. Our method is evaluated on five dynamic view synthesis datasets including DyNeRF, ZJU-MoCap, NHR, DNA-Rendering and ENeRF-Outdoor datasets. The results show that Im4D exhibits state-of-the-art performance in rendering quality and can be trained efficiently, while realizing real-time rendering with a speed of 79.8 FPS for 512×512 images, on a single RTX 3090 GPU.

arxiv情報

著者 Haotong Lin,Sida Peng,Zhen Xu,Tao Xie,Xingyi He,Hujun Bao,Xiaowei Zhou
発行日 2023-10-12 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク