UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater Robots

要約

この論文では、低コストの水中ロボットの 3D 認識機能を有効にするための高速単眼深度推定方法を提示します。
自然な水中シーンの画像形成特性のドメイン知識を組み込んだ、UDepth という名前の新しいエンドツーエンドのディープビジュアルラーニングパイプラインを策定します。
まず、事前の水中光減衰を利用して生の RGB 画像空間から新しい入力空間を適応させ、粗いピクセル単位の深度予測のために最小二乗法を考案します。
その後、これをドメイン プロジェクション ロスに拡張し、9K 以上の RGB-D トレーニング サンプルで UDepth のエンドツーエンドの学習を導きます。
UDepth は、軽量な MobileNetV2 バックボーンと Transformer ベースのオプティマイザーを使用して設計されており、組み込みシステムでの高速な推論率を保証します。
ドメインを意識した設計の選択と包括的な実験分析を通じて、小さな計算フットプリントを確保しながら最先端の深度推定パフォーマンスを達成できることを実証します。
具体的には、UDepth は、既存のベンチマークよりも 70% ~ 80% 少ないネットワーク パラメーターで、同等の、多くの場合より優れた深度推定パフォーマンスを実現します。
完全なモデルは、単一の GPU (CPU コア) で 66 FPS (13 FPS) を超える推論レートを提供しますが、粗い深度予測のドメイン プロジェクションは、シングルボード NVIDIA Jetson TX2 で 51.5 FPS レートで実行されます。
推論パイプラインは、https://github.com/uf-robopi/UDepth で入手できます。

要約(オリジナル)

In this paper, we present a fast monocular depth estimation method for enabling 3D perception capabilities of low-cost underwater robots. We formulate a novel end-to-end deep visual learning pipeline named UDepth, which incorporates domain knowledge of image formation characteristics of natural underwater scenes. First, we adapt a new input space from raw RGB image space by exploiting underwater light attenuation prior, and then devise a least-squared formulation for coarse pixel-wise depth prediction. Subsequently, we extend this into a domain projection loss that guides the end-to-end learning of UDepth on over 9K RGB-D training samples. UDepth is designed with a computationally light MobileNetV2 backbone and a Transformer-based optimizer for ensuring fast inference rates on embedded systems. By domain-aware design choices and through comprehensive experimental analyses, we demonstrate that it is possible to achieve state-of-the-art depth estimation performance while ensuring a small computational footprint. Specifically, with 70%-80% less network parameters than existing benchmarks, UDepth achieves comparable and often better depth estimation performance. While the full model offers over 66 FPS (13 FPS) inference rates on a single GPU (CPU core), our domain projection for coarse depth prediction runs at 51.5 FPS rates on single-board NVIDIA Jetson TX2s. The inference pipelines are available at https://github.com/uf-robopi/UDepth.

arxiv情報

著者 Boxiao Yu,Jiayi Wu,Md Jahidul Islam
発行日 2023-02-02 16:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク