SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation

要約

画像からの深度推定は、自動運転の 3D 認識の基本的なステップとして機能し、LiDAR のような高価な深度センサーに代わる経済的な方法です。
一時的な測光制約により、ラベルなしで自己教師付き深度推定が可能になり、その適用がさらに容易になります。
ただし、ほとんどの既存の方法は、各単眼画像のみに基づいて深度を予測し、複数の周囲カメラ間の相関関係を無視します。これは、通常、最新の自動運転車で利用できます。
この論文では、複数の周囲ビューからの情報を組み込んでカメラ全体の深度マップを予測するSurroundDepthメソッドを提案します。
具体的には、結合ネットワークを使用して周囲のすべてのビューを処理し、複数のビューからの情報を効果的に融合するクロスビュー トランスフォーマーを提案します。
クロスビュー自己注意を適用して、マルチカメラ機能マップ間のグローバルな相互作用を効率的に有効にします。
自己教師ありの単眼深度推定とは異なり、マルチカメラの外部行列が与えられると、実世界のスケールを予測できます。
この目標を達成するために、モデルを事前トレーニングするためにスケールを意識した疑似深度を抽出するために、モーションからの 2 フレーム構造を採用します。
さらに、個々のカメラのエゴモーションを予測する代わりに、車両の普遍的なエゴモーションを推定し、それを各ビューに転送して、マルチビューのエゴモーションの一貫性を実現します。
実験では、私たちの方法は、挑戦的なマルチカメラ深度推定データセット DDAD および nuScenes で最先端のパフォーマンスを達成します。

要約(オリジナル)

Depth estimation from images serves as the fundamental step of 3D perception for autonomous driving and is an economical alternative to expensive depth sensors like LiDAR. The temporal photometric constraints enables self-supervised depth estimation without labels, further facilitating its application. However, most existing methods predict the depth solely based on each monocular image and ignore the correlations among multiple surrounding cameras, which are typically available for modern self-driving vehicles. In this paper, we propose a SurroundDepth method to incorporate the information from multiple surrounding views to predict depth maps across cameras. Specifically, we employ a joint network to process all the surrounding views and propose a cross-view transformer to effectively fuse the information from multiple views. We apply cross-view self-attention to efficiently enable the global interactions between multi-camera feature maps. Different from self-supervised monocular depth estimation, we are able to predict real-world scales given multi-camera extrinsic matrices. To achieve this goal, we adopt the two-frame structure-from-motion to extract scale-aware pseudo depths to pretrain the models. Further, instead of predicting the ego-motion of each individual camera, we estimate a universal ego-motion of the vehicle and transfer it to each view to achieve multi-view ego-motion consistency. In experiments, our method achieves the state-of-the-art performance on the challenging multi-camera depth estimation datasets DDAD and nuScenes.

arxiv情報

著者 Yi Wei,Linqing Zhao,Wenzhao Zheng,Zheng Zhu,Yongming Rao,Guan Huang,Jiwen Lu,Jie Zhou
発行日 2022-09-20 13:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク