Synthetic-to-Real Self-supervised Robust Depth Estimation via Learning with Motion and Structure Priors

要約

昼間、雨、夜間などの多様な屋外条件における単眼カメラからの自己監視深度推定は、普遍的な表現を学ぶことの難しさと、ラベル付きの実世界の不利なデータの深刻な欠如のために困難です。
以前の方法は、合成入力と擬似深いラベルに依存するか、日中の戦略を悪化に直接適用して、最適ではない結果をもたらします。
このホワイトペーパーでは、現実世界の知識を効果的にキャプチャするために動きと構造のプライアーを組み込んだ最初の合成から実現への堅牢な深さ推定フレームワークを紹介します。
合成適応では、凍結した日中のモデルを使用して合成副条件の深さ推定器を訓練するために、より良い堅牢な表現のためにコストボリューム内の運動構造の知識を伝達します。
合成リアルギャップを修正することを目的とした革新的な実質適応では、以前に訓練されたモデルは、有効な擬似ラベルを強調するための設計された一貫性のある和解戦略を備えた気象感受性地域を特定します。
現実世界のデータに直面したときにモデルを制約するために明示的な深さ分布を収集することにより、新しい正則化を導入します。
実験では、私たちの方法が、マルチフレームと単一フレームの評価において、多様な条件全体で最先端の最先端を上回ることを示しています。
アブセンとロボットカーデータセット(昼間、夜間、雨)で平均して、アブレルとRMSEの7.5%と4.3%の改善を達成しています。
drivingstereo(雨、霧)のゼロショット評価では、私たちの方法は以前のものよりもよく一般化されています。

要約(オリジナル)

Self-supervised depth estimation from monocular cameras in diverse outdoor conditions, such as daytime, rain, and nighttime, is challenging due to the difficulty of learning universal representations and the severe lack of labeled real-world adverse data. Previous methods either rely on synthetic inputs and pseudo-depth labels or directly apply daytime strategies to adverse conditions, resulting in suboptimal results. In this paper, we present the first synthetic-to-real robust depth estimation framework, incorporating motion and structure priors to capture real-world knowledge effectively. In the synthetic adaptation, we transfer motion-structure knowledge inside cost volumes for better robust representation, using a frozen daytime model to train a depth estimator in synthetic adverse conditions. In the innovative real adaptation, which targets to fix synthetic-real gaps, models trained earlier identify the weather-insensitive regions with a designed consistency-reweighting strategy to emphasize valid pseudo-labels. We introduce a new regularization by gathering explicit depth distributions to constrain the model when facing real-world data. Experiments show that our method outperforms the state-of-the-art across diverse conditions in multi-frame and single-frame evaluations. We achieve improvements of 7.5% and 4.3% in AbsRel and RMSE on average for nuScenes and Robotcar datasets (daytime, nighttime, rain). In zero-shot evaluation of DrivingStereo (rain, fog), our method generalizes better than the previous ones.

arxiv情報

著者 Weilong Yan,Ming Li,Haipeng Li,Shuwei Shao,Robby T. Tan
発行日 2025-03-26 04:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク