要約
深度レンダリングと深度監視を用いた輝度場の学習は、ビュー合成の品質と収束を効果的に促進できることが示されている。しかし、このパラダイムは、入力RGB-Dシーケンスを同期させる必要があり、UAV都市モデリングシナリオでの利用を妨げている。高速飛行により、RGB画像と深度画像の間に非同期性が存在するため、タイムスタンプを$rm SE(3)$要素にマップする暗黙ネットワークである新しいタイムポーズ関数を提案する。また、学習プロセスを簡略化するために、大規模な深度正則化輝度フィールドとtime-pose関数を共同で学習するための共同最適化スキームを設計する。我々のアルゴリズムは3つのステップから構成される:(1)時間ポーズ関数のフィッティング、(2)輝度場のブートストラップ、(3)合同ポーズ誤差補正と輝度場の精密化。さらに、この新しい問題設定を系統的に評価するために、多様な制御ミスマッチとグランドトゥルースを持つ大規模な合成データセットを提案する。広範な実験を通じて、我々の手法が正則化なしのベースラインを上回ることを実証する。また、ドローンで撮影された実世界の非同期RGB-Dシーケンスにおいて、定性的に改善された結果を示す。コード、データ、モデルは公開される予定である。
要約(オリジナル)
It has been shown that learning radiance fields with depth rendering and depth supervision can effectively promote the quality and convergence of view synthesis. However, this paradigm requires input RGB-D sequences to be synchronized, hindering its usage in the UAV city modeling scenario. As there exists asynchrony between RGB images and depth images due to high-speed flight, we propose a novel time-pose function, which is an implicit network that maps timestamps to $\rm SE(3)$ elements. To simplify the training process, we also design a joint optimization scheme to jointly learn the large-scale depth-regularized radiance fields and the time-pose function. Our algorithm consists of three steps: (1) time-pose function fitting, (2) radiance field bootstrapping, (3) joint pose error compensation and radiance field refinement. In addition, we propose a large synthetic dataset with diverse controlled mismatches and ground truth to evaluate this new problem setting systematically. Through extensive experiments, we demonstrate that our method outperforms baselines without regularization. We also show qualitatively improved results on a real-world asynchronous RGB-D sequence captured by drone. Codes, data, and models will be made publicly available.
arxiv情報
著者 | Yuxin Huang,Andong Yang,Zirui Wu,Yuantao Chen,Runyi Yang,Zhenxin Zhu,Chao Hou,Hao Zhao,Guyue Zhou |
発行日 | 2024-04-04 08:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |