要約
ニューラル放射輝度場(Neural Radiance Fields: NeRF)は、3D再構成と新しい視点生成において目覚ましい成果を上げている。NeRFにおける重要な課題は、オブジェクトの除去など、再構成された3Dシーンの編集であり、複数のビューにわたる一貫性と高品質なパースペクティブの合成が要求される。これまでの研究では、物体除去におけるNeRFの性能を向上させるために、一般的にLiDARやCOLMAPからの疎な深度推定から得られる深度プリオールを統合してきました。しかし、これらの方法は高価であったり、時間がかかったりする。本論文では、SpinNeRFとZoeDepthのような単眼深度推定モデルを活用し、複雑な物体除去におけるNeRFの性能を効率的に向上させる新しいパイプラインを提案する。KITTIデータセット上でCOLMAPの高密度な深度再構成の徹底的な評価を行い、COLMAPがLiDARのような従来の方法と比較して、深度のグランドトゥルースを取得するための費用対効果が高くスケーラブルな代替手段と見なすことができることを示す。これは、SpinNeRFの深度プリオールを生成するための最適なモデルを決定するために、単眼深度推定モデルの性能を評価するための基礎となります。新しいパイプラインは、3D再構成とオブジェクト除去を含む様々なシナリオでテストされ、その結果、我々のパイプラインは、オブジェクト除去のための深度プリオールの取得に必要な時間を大幅に短縮し、合成されたビューの忠実度を向上させることが示され、将来的に効率を向上させた高忠実度のデジタルツインシステムを構築するための大きな可能性を示唆している。
要約(オリジナル)
Neural Radiance Fields (NeRF) have achieved impressive results in 3D reconstruction and novel view generation. A significant challenge within NeRF involves editing reconstructed 3D scenes, such as object removal, which demands consistency across multiple views and the synthesis of high-quality perspectives. Previous studies have integrated depth priors, typically sourced from LiDAR or sparse depth estimates from COLMAP, to enhance NeRF’s performance in object removal. However, these methods are either expensive or time-consuming. This paper proposes a new pipeline that leverages SpinNeRF and monocular depth estimation models like ZoeDepth to enhance NeRF’s performance in complex object removal with improved efficiency. A thorough evaluation of COLMAP’s dense depth reconstruction on the KITTI dataset is conducted to demonstrate that COLMAP can be viewed as a cost-effective and scalable alternative for acquiring depth ground truth compared to traditional methods like LiDAR. This serves as the basis for evaluating the performance of monocular depth estimation models to determine the best one for generating depth priors for SpinNeRF. The new pipeline is tested in various scenarios involving 3D reconstruction and object removal, and the results indicate that our pipeline significantly reduces the time required for the acquisition of depth priors for object removal and enhances the fidelity of the synthesized views, suggesting substantial potential for building high-fidelity digital twin systems with increased efficiency in the future.
arxiv情報
著者 | Zhihao Guo,Peng Wang |
発行日 | 2024-07-03 15:23:00+00:00 |
arxivサイト | arxiv_id(pdf) |