LiDARTouch: Monocular metric depth estimation with a few-beam LiDAR

要約

ビジョンベースの深度推定は、多くの場合、単一のカメラまたは複数の独立したカメラに依存する自律システムの重要な機能です。
このような単眼のセットアップでは、1 つまたは複数の高価な LiDAR (64 ビームなど) からの追加入力、またはスケールのあいまいさと無限深度の問題に悩まされるカメラのみの方法のいずれかを使用して、高密度の深度が取得されます。
このホワイト ペーパーでは、単眼カメラと、今日の自動車グレードの大量生産されたレーザー スキャナーに典型的な 4 ビームなどの軽量 LiDAR を組み合わせることにより、メトリック深度を密に推定する新しい代替手段を提案します。
最近の自己教師あり手法に着想を得て、LiDARTouch と呼ばれる新しいフレームワークを導入し、LiDAR の「タッチ」の助けを借りて、つまり、高密度のグラウンド トゥルース深度を必要とせずに、単眼画像から高密度の深度マップを推定します。
私たちのセットアップでは、最小の LiDAR 入力が 3 つの異なるレベルで寄与します: 追加のモデルの入力として、自己教師付き LiDAR 再構成目的関数で、ポーズの変化を推定する (自己教師付き深度推定アーキテクチャの重要なコンポーネント)。
私たちの LiDARTouch フレームワークは、KITTI データセットの自己教師あり深度推定で新しい最先端技術を実現し、非常にまばらな LiDAR 信号を他の視覚的特徴と統合するという私たちの選択をサポートします。
さらに、少数ビーム LiDAR を使用すると、カメラのみの方法が被るスケールのあいまいさと無限深度の問題が軽減されることを示します。
また、完全に教師付きの深度補完の文献からの方法を、最小限の LiDAR 信号で自己教師付き体制に適応できることも示します。

要約(オリジナル)

Vision-based depth estimation is a key feature in autonomous systems, which often relies on a single camera or several independent ones. In such a monocular setup, dense depth is obtained with either additional input from one or several expensive LiDARs, e.g., with 64 beams, or camera-only methods, which suffer from scale-ambiguity and infinite-depth problems. In this paper, we propose a new alternative of densely estimating metric depth by combining a monocular camera with a light-weight LiDAR, e.g., with 4 beams, typical of today’s automotive-grade mass-produced laser scanners. Inspired by recent self-supervised methods, we introduce a novel framework, called LiDARTouch, to estimate dense depth maps from monocular images with the help of “touches” of LiDAR, i.e., without the need for dense ground-truth depth. In our setup, the minimal LiDAR input contributes on three different levels: as an additional model’s input, in a self-supervised LiDAR reconstruction objective function, and to estimate changes of pose (a key component of self-supervised depth estimation architectures). Our LiDARTouch framework achieves new state of the art in self-supervised depth estimation on the KITTI dataset, thus supporting our choices of integrating the very sparse LiDAR signal with other visual features. Moreover, we show that the use of a few-beam LiDAR alleviates scale ambiguity and infinite-depth issues that camera-only methods suffer from. We also demonstrate that methods from the fully-supervised depth-completion literature can be adapted to a self-supervised regime with a minimal LiDAR signal.

arxiv情報

著者 Florent Bartoccioni,Éloi Zablocki,Patrick Pérez,Matthieu Cord,Karteek Alahari
発行日 2022-11-25 13:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, cs.RO パーマリンク