Semi-SD: Semi-Supervised Metric Depth Estimation via Surrounding Cameras for Autonomous Driving

要約

このホワイトペーパーでは、自律運転で周囲のカメラ機器に合わせた新しいメトリック深度推定フレームワークであるSemi-SDを紹介します。
この作業では、入力データは隣接する周囲のフレームとカメラパラメーターで構成されています。
視覚的な融合機能を構築するために、統一された空間的セマンティック融合モジュールを提案します。
周囲のカメラと隣接するフレームのクロスアテンションコンポーネントは、メトリックスケール情報の改良と時間的特徴のマッチングに焦点を当てるために利用されています。
これに基づいて、周囲のカメラ、対応する推定深度、および外因性パラメーターを使用してポーズ推定フレームワークを提案します。これは、マルチカメラセットアップのスケールのあいまいさに効果的に対処します。
さらに、セマンティックワールドモデルと単眼深度推定世界モデルは、深さ推定の質を向上させる深度推定を監督するために統合されています。
DDADおよびNuscenesデータセットに関するアルゴリズムを評価し、結果は、この方法が周囲のカメラベースの深度推定品質の観点から最先端のパフォーマンスを達成することを示しています。
ソースコードは、https://github.com/xieyuser/semi-sdで入手できます。

要約(オリジナル)

In this paper, we introduce Semi-SD, a novel metric depth estimation framework tailored for surrounding cameras equipment in autonomous driving. In this work, the input data consists of adjacent surrounding frames and camera parameters. We propose a unified spatial-temporal-semantic fusion module to construct the visual fused features. Cross-attention components for surrounding cameras and adjacent frames are utilized to focus on metric scale information refinement and temporal feature matching. Building on this, we propose a pose estimation framework using surrounding cameras, their corresponding estimated depths, and extrinsic parameters, which effectively address the scale ambiguity in multi-camera setups. Moreover, semantic world model and monocular depth estimation world model are integrated to supervised the depth estimation, which improve the quality of depth estimation. We evaluate our algorithm on DDAD and nuScenes datasets, and the results demonstrate that our method achieves state-of-the-art performance in terms of surrounding camera based depth estimation quality. The source code will be available on https://github.com/xieyuser/Semi-SD.

arxiv情報

著者 Yusen Xie,Zhengmin Huang,Shaojie Shen,Jun Ma
発行日 2025-03-25 14:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク