ProDepth: Boosting Self-Supervised Multi-Frame Monocular Depth with Probabilistic Fusion

要約

自己監視型マルチフレーム単眼奥行き推定は、静的なシーンの仮定の下で、連続するフレーム間の幾何学的一貫性に依存します。
ただし、動的なシーンに移動するオブジェクトが存在すると、避けられない不一致が生じ、複数フレームの特徴マッチングの位置がずれたり、トレーニング中に自己監視が誤解を招く原因になります。
この論文では、ProDepth と呼ばれる新しいフレームワークを提案します。これは、確率論的なアプローチを使用して、動的オブジェクトによって引き起こされる不一致問題に効果的に対処します。
まず、補助デコーダを採用することで、静的なシーンの仮定に関連する不確実性を推定します。
このデコーダは、コスト ボリュームに埋め込まれた不一致を分析し、領域が動的である確率を推測します。
次に、確率的コスト量変調 (PCVM) モジュールを通じて、動的領域の誤ったコスト量を直接修正します。
具体的には、単一フレームとマルチフレームの両方のキューから深度候補の確率分布を導出し、推定された不確実性に基づいてそれらの分布を適応的に融合することでコスト量を調整します。
さらに、不確実性の高い誤った監視をマスクするだけでなく、確率に従って残りの可能な動的領域のリスクを軽減する自己監視損失再重み付け戦略を提案します。
私たちが提案した手法は、Cityscapes データセットと KITTI データセットの両方のすべての指標において最先端のアプローチよりも優れており、Waymo Open データセットで優れた一般化能力を示しています。

要約(オリジナル)

Self-supervised multi-frame monocular depth estimation relies on the geometric consistency between successive frames under the assumption of a static scene. However, the presence of moving objects in dynamic scenes introduces inevitable inconsistencies, causing misaligned multi-frame feature matching and misleading self-supervision during training. In this paper, we propose a novel framework called ProDepth, which effectively addresses the mismatch problem caused by dynamic objects using a probabilistic approach. We initially deduce the uncertainty associated with static scene assumption by adopting an auxiliary decoder. This decoder analyzes inconsistencies embedded in the cost volume, inferring the probability of areas being dynamic. We then directly rectify the erroneous cost volume for dynamic areas through a Probabilistic Cost Volume Modulation (PCVM) module. Specifically, we derive probability distributions of depth candidates from both single-frame and multi-frame cues, modulating the cost volume by adaptively fusing those distributions based on the inferred uncertainty. Additionally, we present a self-supervision loss reweighting strategy that not only masks out incorrect supervision with high uncertainty but also mitigates the risks in remaining possible dynamic areas in accordance with the probability. Our proposed method excels over state-of-the-art approaches in all metrics on both Cityscapes and KITTI datasets, and demonstrates superior generalization ability on the Waymo Open dataset.

arxiv情報

著者 Sungmin Woo,Wonjoon Lee,Woo Jin Kim,Dogyoon Lee,Sangyoun Lee
発行日 2024-07-12 14:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク