An Online Adaptation Method for Robust Depth Estimation and Visual Odometry in the Open World

要約

最近、学習ベースのロボットナビゲーションシステムは、広範な研究の注目を集め、大きな進歩を遂げました。
ただし、オープンワールドシナリオの多様性は、そのようなシステムの一般化にとって実際のシナリオに大きな課題をもたらします。
具体的には、現場の測定と状態の推定のための学習システムは、アプリケーションシナリオがトレーニングデータから逸脱している場合に劣化する傾向があり、信頼性の低い深さとポーズ推定が発生します。
この問題への対処に向けて、この作業は、オンラインで多様な新しい環境に迅速に適応できる視覚的臭気システムを開発することを目的としています。
この目的のために、オンラインアップデートの深度推定モジュールによって支援された単眼の視覚匂いのための自己監視されたオンライン適応フレームワークを構築します。
第一に、効率的なオンライン適応を可能にする軽量の精製モジュールを使用して、単眼深度推定ネットワークを設計します。
次に、視覚臭気システムの出力とシーンのコンテキストセマンティック情報に基づいて、深度推定モジュールの自己監視学習の目的を構築します。
具体的には、カメラのポーズとコンテキストセマンティクスを活用して、オンライン適応のための有効なマスクを生成するために、カメラのポーズとコンテキストセマンティクスを活用するために、スパース深度密度密度モジュールと動的な一貫性強化モジュールが提案されています。
最後に、都市部、社内データセット、ロボットプラットフォームでの最先端の学習ベースのアプローチと比較して、提案された方法の堅牢性と一般化能力を示します。
コードは、https://github.com/jixingwu/sol-slamで公開されています。

要約(オリジナル)

Recently, learning-based robotic navigation systems have gained extensive research attention and made significant progress. However, the diversity of open-world scenarios poses a major challenge for the generalization of such systems to practical scenarios. Specifically, learned systems for scene measurement and state estimation tend to degrade when the application scenarios deviate from the training data, resulting to unreliable depth and pose estimation. Toward addressing this problem, this work aims to develop a visual odometry system that can fast adapt to diverse novel environments in an online manner. To this end, we construct a self-supervised online adaptation framework for monocular visual odometry aided by an online-updated depth estimation module. Firstly, we design a monocular depth estimation network with lightweight refiner modules, which enables efficient online adaptation. Then, we construct an objective for self-supervised learning of the depth estimation module based on the output of the visual odometry system and the contextual semantic information of the scene. Specifically, a sparse depth densification module and a dynamic consistency enhancement module are proposed to leverage camera poses and contextual semantics to generate pseudo-depths and valid masks for the online adaptation. Finally, we demonstrate the robustness and generalization capability of the proposed method in comparison with state-of-the-art learning-based approaches on urban, in-house datasets and a robot platform. Code is publicly available at: https://github.com/jixingwu/SOL-SLAM.

arxiv情報

著者 Xingwu Ji,Haochen Niu,Dexin Duan,Rendong Ying,Fei Wen,Peilin Liu
発行日 2025-04-16 01:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク