Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation

要約

自己教師付き単眼深度推定タスクにおいて、離散視差予測は一般的な連続手法よりも高品質な深度マップを達成することが証明されている。しかし、現在の離散化戦略は、多くの場合、シーンの深度範囲を手作業で硬直的な方法でビンに分割し、モデルの性能を制限している。本論文では、学習可能なモジュールである適応的離散視差ボリューム(Adaptive Discrete Disparity Volume: ADDV)を提案する。このモジュールは、異なるRGB画像の深度分布を動的に感知し、それらに適応したビンを生成することができる。このモジュールは余分な監視なしに、既存のCNNアーキテクチャに組み込むことができ、ネットワークがビンの代表値とその上の確率ボリュームを生成することを可能にする。さらに、自己教師付き条件下で正則化を提供し、モデルの劣化や崩壊を防ぐために、それぞれ損失項と温度パラメータを通して、均一化と鮮鋭化という新しい学習戦略を導入する。実証的な結果は、ADDVが大域的な情報を効果的に処理し、様々なシーンに対して適切なビンを生成し、手作りの手法と比較してより高品質な深度マップを生成することを示している。

要約(オリジナル)

In self-supervised monocular depth estimation tasks, discrete disparity prediction has been proven to attain higher quality depth maps than common continuous methods. However, current discretization strategies often divide depth ranges of scenes into bins in a handcrafted and rigid manner, limiting model performance. In this paper, we propose a learnable module, Adaptive Discrete Disparity Volume (ADDV), which is capable of dynamically sensing depth distributions in different RGB images and generating adaptive bins for them. Without any extra supervision, this module can be integrated into existing CNN architectures, allowing networks to produce representative values for bins and a probability volume over them. Furthermore, we introduce novel training strategies – uniformizing and sharpening – through a loss term and temperature parameter, respectively, to provide regularizations under self-supervised conditions, preventing model degradation or collapse. Empirical results demonstrate that ADDV effectively processes global information, generating appropriate bins for various scenes and producing higher quality depth maps compared to handcrafted methods.

arxiv情報

著者 Jianwei Ren
発行日 2024-04-04 04:22:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク