A Simple Baseline for Supervised Surround-view Depth Estimation


奥行き推定は広く研究されており、インテリジェント車両の 3D 認識の基本的なステップとして機能します。
過去数十年で単眼の奥行き推定は大幅に進歩しましたが、これらの試みは主にフロントビュー カメラのみを使用した KITTI ベンチマークで行われており、サラウンドビュー カメラ全体の相関関係は無視されています。
この論文では、複数の周囲カメラにわたる深度マップを共同で予測するための、教師ありサラウンドビュー深度推定のための単純なベースラインである S3Depth を提案します。
具体的には、CNN とトランスフォーマー層を組み合わせて表現を強化するグローバルからローカルへの特徴抽出モジュールを採用しています。
さらに、ビュー内およびビュー間の特徴伝播を可能にするために、隣接ビュー アテンション メカニズムが提案されています。
前者は各ビュー内のセルフ アテンション モジュールによって実現され、後者は隣接アテンション モジュールによって実現されます。隣接アテンション モジュールは、マルチカメラ全体のアテンションを計算して、サラウンド ビュー フィーチャ マップ全体でマルチスケール表現を交換します。
広範な実験により、私たちの方法が DDAD と nuScenes データセットの両方で既存の最先端の方法よりも優れたパフォーマンスを達成することが示されています。


Depth estimation has been widely studied and serves as the fundamental step of 3D perception for intelligent vehicles. Though significant progress has been made in monocular depth estimation in the past decades, these attempts are mainly conducted on the KITTI benchmark with only front-view cameras, which ignores the correlations across surround-view cameras. In this paper, we propose S3Depth, a Simple Baseline for Supervised Surround-view Depth Estimation, to jointly predict the depth maps across multiple surrounding cameras. Specifically, we employ a global-to-local feature extraction module which combines CNN with transformer layers for enriched representations. Further, the Adjacent-view Attention mechanism is proposed to enable the intra-view and inter-view feature propagation. The former is achieved by the self-attention module within each view, while the latter is realized by the adjacent attention module, which computes the attention across multi-cameras to exchange the multi-scale representations across surround-view feature maps. Extensive experiments show that our method achieves superior performance over existing state-of-the-art methods on both DDAD and nuScenes datasets.


著者 Xianda Guo,Wenjie Yuan,Yunpeng Zhang,Tian Yang,Chenming Zhang,Zheng Zhu,Long Chen
発行日 2023-10-18 10:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク