D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes

要約

深度推定はロボット工学において重要な技術です。
最近、自己教師あり深度推定手法は、大量のラベルなしの実世界データを効率的に活用できるため、大きな可能性を実証しました。
しかし、既存の手法のほとんどは静的なシーンを想定して設計されているため、動的な環境での適応性が妨げられています。
この問題に対処するために、動的シーンにおける自己監視型深度推定の新しい方法である D$^3$epth を紹介します。
2 つの重要な観点から動的オブジェクトの課題に取り組みます。
まず、自己教師ありフレームワーク内で、動的オブジェクトを含む可能性のある領域を特定するための再投影制約を設計し、損失レベルでその影響を軽減する動的マスクの構築を可能にします。
2 番目に、マルチフレーム深度推定のために、隣接するフレームを活用して動的オブジェクトに関連付けられた領域を識別し、対応するマスクを生成するコスト ボリューム自動マスキング戦略を導入します。
これにより、後続のプロセスのガイドラインが提供されます。
さらに、深度融合中の不確実性推定をガイドするスペクトルエントロピーを組み込んだスペクトルエントロピー不確実性モジュールを提案し、動的環境におけるコストボリューム計算から生じる問題に効果的に対処します。
KITTI および Cityscapes データセットに関する広範な実験により、提案された方法が既存の自己監視型単眼奥行き推定ベースラインを一貫して上回ることが実証されました。
コードは \url{https://github.com/Csyunling/D3epth} で入手できます。

要約(オリジナル)

Depth estimation is a crucial technology in robotics. Recently, self-supervised depth estimation methods have demonstrated great potential as they can efficiently leverage large amounts of unlabelled real-world data. However, most existing methods are designed under the assumption of static scenes, which hinders their adaptability in dynamic environments. To address this issue, we present D$^3$epth, a novel method for self-supervised depth estimation in dynamic scenes. It tackles the challenge of dynamic objects from two key perspectives. First, within the self-supervised framework, we design a reprojection constraint to identify regions likely to contain dynamic objects, allowing the construction of a dynamic mask that mitigates their impact at the loss level. Second, for multi-frame depth estimation, we introduce a cost volume auto-masking strategy that leverages adjacent frames to identify regions associated with dynamic objects and generate corresponding masks. This provides guidance for subsequent processes. Furthermore, we propose a spectral entropy uncertainty module that incorporates spectral entropy to guide uncertainty estimation during depth fusion, effectively addressing issues arising from cost volume computation in dynamic environments. Extensive experiments on KITTI and Cityscapes datasets demonstrate that the proposed method consistently outperforms existing self-supervised monocular depth estimation baselines. Code is available at \url{https://github.com/Csyunling/D3epth}.

arxiv情報

著者 Siyu Chen,Hong Liu,Wenhao Li,Ying Zhu,Guoquan Wang,Jianbing Wu
発行日 2024-11-07 16:07:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク