M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation

要約

本論文では、M${^2}$Depthと呼ばれる、自律走行における信頼性の高いスケールを考慮した周囲深度を予測するために設計された、新しい自己教師付き2フレームマルチカメラメトリック深度推定ネットワークを紹介する。M${^2}$Depthは、1つのタイムステップからのマルチビュー画像や、1つのカメラからの複数のタイムステップ画像を用いる先行研究とは異なり、複数のカメラからの時間的に隣接する2フレーム画像を入力とし、高品質な周囲深度を生成する。まず空間領域と時間領域で個別にコストボリュームを構成し、空間-時間情報を統合して強力なボリューム表現をもたらす空間-時間融合モジュールを提案する。さらに、前景と背景の間の曖昧性を低減し、奥行きエッジを強化するために、SAM特徴からのニューラル事前分布を内部特徴と組み合わせる。nuScenesとDDADベンチマークでの広範な実験結果は、M${^2}$Depthが最先端の性能を達成していることを示している。より多くの結果は https://heiheishuang.xyz/M2Depth にあります。

要約(オリジナル)

This paper presents a novel self-supervised two-frame multi-camera metric depth estimation network, termed M${^2}$Depth, which is designed to predict reliable scale-aware surrounding depth in autonomous driving. Unlike the previous works that use multi-view images from a single time-step or multiple time-step images from a single camera, M${^2}$Depth takes temporally adjacent two-frame images from multiple cameras as inputs and produces high-quality surrounding depth. We first construct cost volumes in spatial and temporal domains individually and propose a spatial-temporal fusion module that integrates the spatial-temporal information to yield a strong volume presentation. We additionally combine the neural prior from SAM features with internal features to reduce the ambiguity between foreground and background and strengthen the depth edges. Extensive experimental results on nuScenes and DDAD benchmarks show M${^2}$Depth achieves state-of-the-art performance. More results can be found in https://heiheishuang.xyz/M2Depth .

arxiv情報

著者 Yingshuang Zou,Yikang Ding,Xi Qiu,Haoqian Wang,Haotian Zhang
発行日 2024-05-03 11:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク