Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes

要約

フォトリアルなビュー合成のための高密度シーン再構成は、VR/AR、自動運転車など、さまざまな用途に利用できます。
ただし、既存の手法のほとんどは、\textit{(a) 不正確な深度入力。} という 3 つの主要な課題により、大規模なシーンでは困難を伴います。現実世界の大規模シーンでは正確な深度入力を取得することは不可能です。
\textit{(b) 不正確な姿勢推定。} 既存のアプローチのほとんどは、正確な事前推定されたカメラの姿勢に依存しています。
\textit{(c) シーン表現能力が不十分です。} 単一のグローバル放射フィールドには、大規模なシーンに効果的に拡張する能力がありません。
この目的を達成するために、正確な深度、姿勢推定、および大規模なシーンの再構成を実現できる増分共同学習フレームワークを提案します。
ビジョントランスフォーマーベースのネットワークをバックボーンとして採用し、スケール情報推定のパフォーマンスを向上させます。
姿勢推定では、大規模なシーンで正確かつ堅牢なカメラ追跡を行うために、フィーチャメトリック バンドル調整 (FBA) メソッドが設計されています。
暗黙的なシーン表現の観点から、3D シーン表現のスケーラビリティを向上させるために、大規模シーン全体を複数の局所放射フィールドとして構築する増分シーン表現方法を提案します。
深度推定、姿勢推定、および大規模なシーンの再構成における私たちの方法の有効性と精度を実証するために、拡張実験が行われました。

要約(オリジナル)

Dense scene reconstruction for photo-realistic view synthesis has various applications, such as VR/AR, autonomous vehicles. However, most existing methods have difficulties in large-scale scenes due to three core challenges: \textit{(a) inaccurate depth input.} Accurate depth input is impossible to get in real-world large-scale scenes. \textit{(b) inaccurate pose estimation.} Most existing approaches rely on accurate pre-estimated camera poses. \textit{(c) insufficient scene representation capability.} A single global radiance field lacks the capacity to effectively scale to large-scale scenes. To this end, we propose an incremental joint learning framework, which can achieve accurate depth, pose estimation, and large-scale scene reconstruction. A vision transformer-based network is adopted as the backbone to enhance performance in scale information estimation. For pose estimation, a feature-metric bundle adjustment (FBA) method is designed for accurate and robust camera tracking in large-scale scenes. In terms of implicit scene representation, we propose an incremental scene representation method to construct the entire large-scale scene as multiple local radiance fields to enhance the scalability of 3D scene representation. Extended experiments have been conducted to demonstrate the effectiveness and accuracy of our method in depth estimation, pose estimation, and large-scale scene reconstruction.

arxiv情報

著者 Tianchen Deng,Nailin Wang,Chongdi Wang,Shenghai Yuan,Jingchuan Wang,Danwei Wang,Weidong Chen
発行日 2024-04-09 06:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク