要約
NeRF(Neural Radiance Fields)などのニューラルシーン表現は、姿勢が既知のカラー画像群を用いたMLP(Multilayer perceptron)の学習に基づくものである。現在、RGB-D(color + depth)情報を生成するデバイスが増加しており、これは様々なタスクにおいて非常に重要であることが示されている。そこで、本論文では、カラー画像に奥行き情報を取り込むことで、これらの有望な暗黙の表現にどのような改良が加えられるかを調べることを目的とする。特に、最近提案されたMip-NeRFアプローチは、ボリュームレンダリングに光線の代わりに円錐形のフラストレーションを用いることで、カメラの中心からの距離によって変化する画素の面積を考慮することができる。また、提案手法では、さらに奥行きの不確実性をモデル化しています。これにより、ジオメトリの精度向上、アーチファクトの低減、学習時間の短縮、予測時間の短縮など、NeRFベースのアプローチの主要な制限を解決することができる。本手法を用いて、有名なベンチマークシーンを用いた実験を行った結果、シーンジオメトリとフォトメトリック再構成の精度が向上し、学習時間が3-5倍短縮されることがわかった。
要約(オリジナル)
Neural scene representations, such as Neural Radiance Fields (NeRF), are based on training a multilayer perceptron (MLP) using a set of color images with known poses. An increasing number of devices now produce RGB-D(color + depth) information, which has been shown to be very important for a wide range of tasks. Therefore, the aim of this paper is to investigate what improvements can be made to these promising implicit representations by incorporating depth information with the color images. In particular, the recently proposed Mip-NeRF approach, which uses conical frustums instead of rays for volume rendering, allows one to account for the varying area of a pixel with distance from the camera center. The proposed method additionally models depth uncertainty. This allows to address major limitations of NeRF-based approaches including improving the accuracy of geometry, reduced artifacts, faster training time, and shortened prediction time. Experiments are performed on well-known benchmark scenes, and comparisons show improved accuracy in scene geometry and photometric reconstruction, while reducing the training time by 3 – 5 times.
arxiv情報
著者 | Arnab Dey,Yassine Ahmine,Andrew I. Comport |
発行日 | 2022-11-07 13:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |