NeRF-Guided Unsupervised Learning of RGB-D Registration

要約

このペーパーでは、グラウンド トゥルース ポーズ監視を使用せずに、堅牢な RGB-D レジストレーション モデルをトレーニングすることに焦点を当てています。
既存の方法は通常、微分可能なレンダリングに基づくペアワイズ トレーニング戦略を採用しており、これにより、監視として 2 つの登録されたフレーム間の測光および幾何学的一貫性が強制されます。
ただし、このフレーム間のフレームワークでは、照明の変化、ジオメトリのオクルージョン、反射素材などの要因により、マルチビューの一貫性が低下します。
この論文では、教師なし RGB-D レジストレーションのための新しいフレーム対モデル最適化フレームワークである NeRF-UR を紹介します。
フレーム間の一貫性の代わりに、シーンのグローバル モデルとして神経放射フィールド (NeRF) を活用し、入力フレームと NeRF でレンダリングされたフレーム間の一貫性をポーズの最適化に使用します。
この設計により、マルチビューの一貫性が低いシナリオの堅牢性が大幅に向上し、登録モデルにより良い学習信号が提供されます。
さらに、NeRF 最適化をブートストラップするために、フォトリアリスティックなシミュレーターを通じて合成データセット Sim-RGBD を作成し、登録モデルをウォームアップします。
最初に Sim-RGBD で登録モデルをトレーニングし、その後実際のデータで教師なしで微調整することにより、私たちのフレームワークは、シミュレーションから現実への特徴抽出と登録の機能を抽出することを可能にします。
私たちの手法は、2 つの一般的な屋内 RGB-D データセット、ScanNet と 3DMatch で最先端の手法を上回ります。
コードとモデルは紙の複製用にリリースされます。

要約(オリジナル)

This paper focuses on training a robust RGB-D registration model without ground-truth pose supervision. Existing methods usually adopt a pairwise training strategy based on differentiable rendering, which enforces the photometric and the geometric consistency between the two registered frames as supervision. However, this frame-to-frame framework suffers from poor multi-view consistency due to factors such as lighting changes, geometry occlusion and reflective materials. In this paper, we present NeRF-UR, a novel frame-to-model optimization framework for unsupervised RGB-D registration. Instead of frame-to-frame consistency, we leverage the neural radiance field (NeRF) as a global model of the scene and use the consistency between the input and the NeRF-rerendered frames for pose optimization. This design can significantly improve the robustness in scenarios with poor multi-view consistency and provides better learning signal for the registration model. Furthermore, to bootstrap the NeRF optimization, we create a synthetic dataset, Sim-RGBD, through a photo-realistic simulator to warm up the registration model. By first training the registration model on Sim-RGBD and later unsupervisedly fine-tuning on real data, our framework enables distilling the capability of feature extraction and registration from simulation to reality. Our method outperforms the state-of-the-art counterparts on two popular indoor RGB-D datasets, ScanNet and 3DMatch. Code and models will be released for paper reproduction.

arxiv情報

著者 Zhinan Yu,Zheng Qin,Yijie Tang,Yongjun Wang,Renjiao Yi,Chenyang Zhu,Kai Xu
発行日 2024-05-01 13:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク