SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets

要約

深度推定は自動運転において重要な技術であり、360$^\circ$ の知覚を実現するためにマルチカメラ システムがよく使用されます。
これらの 360$^\circ$ カメラ セットには、オーバーラップ領域が限られているか低品質であることが多く、画像全体に対してマルチビュー ステレオ手法を実行できません。
あるいは、単眼法では一貫したクロスビュー予測が生成されない可能性があります。
これらの問題に対処するために、我々はステレオ ガイド付き深度推定 (SGDE) 方法を提案します。この方法は、重なり部分での多視点ステレオ結果を明示的に利用することで、画像全体の深度推定を強化します。
魚眼カメラの歪みの問題を解決し、2 種類の 360$^\circ$ カメラの処理を統合するために、仮想ピンホール カメラを構築することをお勧めします。
不安定な動きによって引き起こされるカメラのポーズの変化するノイズを処理するために、このアプローチでは自己校正方法を採用し、わずかな重なりで隣接するカメラの高精度の相対ポーズを取得します。
これらにより、ロバストなステレオ手法を使用して、オーバーラップ領域で事前に高品質の深度を取得できるようになります。
この事前分布は、追加の入力としてだけでなく、深度推定方法の精度を高め、ビュー間の予測の一貫性を向上させる疑似ラベルとしても機能します。
SGDE の有効性は、1 つの魚眼カメラ データセット (Synthetic Urban) と 2 つのピンホール カメラ データセット (DDAD および nuScenes) で評価されます。
私たちの実験は、SGDE が教師付き深度推定と自己教師付き深度推定の両方に有効であることを実証し、3D 物体検出や占有予測など、下流の自動運転技術を進歩させるための私たちの手法の可能性を強調しています。

要約(オリジナル)

Depth estimation is a critical technology in autonomous driving, and multi-camera systems are often used to achieve a 360$^\circ$ perception. These 360$^\circ$ camera sets often have limited or low-quality overlap regions, making multi-view stereo methods infeasible for the entire image. Alternatively, monocular methods may not produce consistent cross-view predictions. To address these issues, we propose the Stereo Guided Depth Estimation (SGDE) method, which enhances depth estimation of the full image by explicitly utilizing multi-view stereo results on the overlap. We suggest building virtual pinhole cameras to resolve the distortion problem of fisheye cameras and unify the processing for the two types of 360$^\circ$ cameras. For handling the varying noise on camera poses caused by unstable movement, the approach employs a self-calibration method to obtain highly accurate relative poses of the adjacent cameras with minor overlap. These enable the use of robust stereo methods to obtain high-quality depth prior in the overlap region. This prior serves not only as an additional input but also as pseudo-labels that enhance the accuracy of depth estimation methods and improve cross-view prediction consistency. The effectiveness of SGDE is evaluated on one fisheye camera dataset, Synthetic Urban, and two pinhole camera datasets, DDAD and nuScenes. Our experiments demonstrate that SGDE is effective for both supervised and self-supervised depth estimation, and highlight the potential of our method for advancing downstream autonomous driving technologies, such as 3D object detection and occupancy prediction.

arxiv情報

著者 Jialei Xu,Wei Yin,Dong Gong,Xianming Liu,Junjun Jiang,Xiangyang Ji
発行日 2024-02-26 12:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク