要約
近年、NeRFなどのニューラルレンダリングの計算量を削減するために、多重解像度ハッシュエンコーディングが提案されています。この手法では、与えられたシーンのニューラルレンダリングに対して、正確なカメラポーズが要求されます。しかし、カメラポーズと3次元シーンを共同で最適化する従来の手法とは異なり、多重解像度ハッシュ符号化を用いたナイーブな勾配ベースのカメラポーズ精密化手法では、性能が著しく低下してしまうことが判明した。我々は、効率的な多重解像度ハッシュ符号化を用いて、カメラポーズの較正と幾何学的表現の学習を行う共同最適化アルゴリズムを提案する。ハッシュエンコーディングの振動する勾配フローがカメラポーズの登録を妨害することを示し、我々の手法は、ハッシュグリッドをまたぐレイサンプリングの勾配振動を安定化するために、滑らかな補間重み付けを利用することでこの問題に対処している。さらに、カリキュラム学習によりレベルごとのハッシュ符号化を学習することで、ポーズ精度をさらに向上させることができる。新規ビュー合成データセットでの実験により、我々の学習フレームワークは、初期カメラポーズが未知の場合でも、ニューラルレンダリングの最先端の性能と迅速な収束を達成することが検証された。
要約(オリジナル)
Multi-resolution hash encoding has recently been proposed to reduce the computational cost of neural renderings, such as NeRF. This method requires accurate camera poses for the neural renderings of given scenes. However, contrary to previous methods jointly optimizing camera poses and 3D scenes, the naive gradient-based camera pose refinement method using multi-resolution hash encoding severely deteriorates performance. We propose a joint optimization algorithm to calibrate the camera pose and learn a geometric representation using efficient multi-resolution hash encoding. Showing that the oscillating gradient flows of hash encoding interfere with the registration of camera poses, our method addresses the issue by utilizing smooth interpolation weighting to stabilize the gradient oscillation for the ray samplings across hash grids. Moreover, the curriculum training procedure helps to learn the level-wise hash encoding, further increasing the pose refinement. Experiments on the novel-view synthesis datasets validate that our learning frameworks achieve state-of-the-art performance and rapid convergence of neural rendering, even when initial camera poses are unknown.
arxiv情報
| 著者 | Hwan Heo,Taekyung Kim,Jiyoung Lee,Jaewon Lee,Soohyun Kim,Hyunwoo J. Kim,Jin-Hwa Kim | 
| 発行日 | 2023-02-03 06:49:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
