DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction

要約

単眼画像からの自己教師あり深度学習は、通常、時間的に隣接する画像フレーム間の 2D ピクセル単位の測光関係に依存します。
ただし、それらは 3D 点ごとの幾何学的対応を十分に活用することも、オクルージョンや照明の不一致によって引き起こされるフォトメトリック ワーピングのあいまいさに効果的に取り組むこともありません。
これらの問題に対処するために、この作業では、3D 空間情報を考慮し、隣接するカメラ錐台間のより強力な幾何学的制約を利用できる、新しい自己教師あり単眼深度学習フレームワークである Density Volume Construction Network (DevNet) を提案します。
単一の画像からピクセル値を直接回帰する代わりに、DevNet はカメラ錐台を複数の平行な平面に分割し、各平面の点ごとのオクルージョン確率密度を予測します。
最終的な深度マップは、対応する光線に沿って密度を統合することによって生成されます。
トレーニング プロセス中に、新しい正則化戦略と損失関数が導入され、測光のあいまいさとオーバーフィッティングが緩和されます。
モデル パラメーターのサイズや実行時間を明らかに拡大することなく、DevNet は、KITTI-2015 屋外データセットと NYU-V2 屋内データセットの両方で、いくつかの代表的なベースラインよりも優れています。
特に、深度推定のタスクで、KITTI-2015 と NYU-V2 の両方で DevNet を使用すると、二乗平均平方根偏差が約 4% 減少します。
コードは https://github.com/gitkaichenzhou/DevNet で入手できます。

要約(オリジナル)

Self-supervised depth learning from monocular images normally relies on the 2D pixel-wise photometric relation between temporally adjacent image frames. However, they neither fully exploit the 3D point-wise geometric correspondences, nor effectively tackle the ambiguities in the photometric warping caused by occlusions or illumination inconsistency. To address these problems, this work proposes Density Volume Construction Network (DevNet), a novel self-supervised monocular depth learning framework, that can consider 3D spatial information, and exploit stronger geometric constraints among adjacent camera frustums. Instead of directly regressing the pixel value from a single image, our DevNet divides the camera frustum into multiple parallel planes and predicts the pointwise occlusion probability density on each plane. The final depth map is generated by integrating the density along corresponding rays. During the training process, novel regularization strategies and loss functions are introduced to mitigate photometric ambiguities and overfitting. Without obviously enlarging model parameters size or running time, DevNet outperforms several representative baselines on both the KITTI-2015 outdoor dataset and NYU-V2 indoor dataset. In particular, the root-mean-square-deviation is reduced by around 4% with DevNet on both KITTI-2015 and NYU-V2 in the task of depth estimation. Code is available at https://github.com/gitkaichenzhou/DevNet.

arxiv情報

著者 Kaichen Zhou,Lanqing Hong,Changhao Chen,Hang Xu,Chaoqiang Ye,Qingyong Hu,Zhenguo Li
発行日 2022-09-15 10:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク