PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation

要約

自己教師付き単眼式奥行き推定とは、RGB画像のみを用いて単眼式奥行き推定(MDE)ネットワークを学習することで、高密度なグランドトゥルースの奥行きを収集することの難しさを克服するものである。多くの先行研究では、深度分類や深度回帰を用いてこの問題に取り組んでいる。しかし、深度分類は、ターゲットビュー上でのバイリニア補間の探索により、ローカルミニマムに陥る傾向がある。また、色と深度の加重和に同じ確率を用いることは曖昧である。そこで、地面と平行な面を定義することで、自動的に地面を分割し、連続した深度を予測する。さらに、深度を混合ラプラス分布としてモデル化し、より確実な最適化目的を提供する。これまでの研究で、MDEネットワークは奥行きを推定するために物体の垂直方向の画像位置のみを使用し、相対的な大きさを無視することが示されている。我々は、リサイズクロッピングによるデータ補強を用いて、ステレオと単眼の両方の学習において初めてこの問題に対処する。リサイズクロッピングの分析に基づいて、我々は平面定義と組み合わせ、ネットワークが奥行きと物体の垂直画像位置と相対的な大きさの両方の関係を学習できるように、学習戦略を改善した。さらに、自己蒸留ステージと後処理を組み合わせることで、より正確な監視を行い、後処理にかかる余分な時間を節約することができる。我々は、我々の分析と改良の有効性を実証するために、広範囲な実験を行う。

要約(オリジナル)

Self-supervised monocular depth estimation refers to training a monocular depth estimation (MDE) network using only RGB images to overcome the difficulty of collecting dense ground truth depth. Many previous works addressed this problem using depth classification or depth regression. However, depth classification tends to fall into local minima due to the bilinear interpolation search on the target view. Depth classification overcomes this problem using pre-divided depth bins, but those depth candidates lead to discontinuities in the final depth result, and using the same probability for weighted summation of color and depth is ambiguous. To overcome these limitations, we use some predefined planes that are parallel to the ground, allowing us to automatically segment the ground and predict continuous depth for it. We further model depth as a mixture Laplace distribution, which provides a more certain objective for optimization. Previous works have shown that MDE networks only use the vertical image position of objects to estimate the depth and ignore relative sizes. We address this problem for the first time in both stereo and monocular training using resize cropping data augmentation. Based on our analysis of resize cropping, we combine it with our plane definition and improve our training strategy so that the network could learn the relationship between depth and both the vertical image position and relative size of objects. We further combine the self-distillation stage with post-processing to provide more accurate supervision and save extra time in post-processing. We conduct extensive experiments to demonstrate the effectiveness of our analysis and improvements.

arxiv情報

著者 Ruoyu Wang,Zehao Yu,Shenghua Gao
発行日 2022-10-04 13:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク