要約
自己教師付き単眼奥行き推定タスクでは、離散視差予測により、一般的な連続手法よりも高品質の奥行きマップが得られることが証明されています。
ただし、現在の離散化戦略では、シーンの深度範囲を手作業で厳密な方法でビンに分割することが多く、モデルのパフォーマンスが制限されます。
この論文では、異なる RGB 画像の深度分布を動的にセンシングし、それらの適応ビンを生成できる学習可能なモジュール Adaptive Discrete Disparity Volume (ADDV) を提案します。
追加の監視なしで、このモジュールを既存の CNN アーキテクチャに統合することができ、ネットワークがビンの代表値とその確率量を生成できるようになります。
さらに、損失項と温度パラメータを通じてそれぞれ均一化と鮮明化という新しいトレーニング戦略を導入し、自己教師あり条件下での正則化を実現し、モデルの劣化や崩壊を防ぎます。
経験的な結果は、ADDV がグローバル情報を効果的に処理し、さまざまなシーンに適切なビンを生成し、手作りの方法と比較して高品質の深度マップを生成することを示しています。
要約(オリジナル)
In self-supervised monocular depth estimation tasks, discrete disparity prediction has been proven to attain higher quality depth maps than common continuous methods. However, current discretization strategies often divide depth ranges of scenes into bins in a handcrafted and rigid manner, limiting model performance. In this paper, we propose a learnable module, Adaptive Discrete Disparity Volume (ADDV), which is capable of dynamically sensing depth distributions in different RGB images and generating adaptive bins for them. Without any extra supervision, this module can be integrated into existing CNN architectures, allowing networks to produce representative values for bins and a probability volume over them. Furthermore, we introduce novel training strategies – uniformizing and sharpening – through a loss term and temperature parameter, respectively, to provide regularizations under self-supervised conditions, preventing model degradation or collapse. Empirical results demonstrate that ADDV effectively processes global information, generating appropriate bins for various scenes and producing higher quality depth maps compared to handcrafted methods.
arxiv情報
著者 | Jianwei Ren |
発行日 | 2024-11-28 00:30:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google