要約
単眼の奥行き推定は、その広範な応用により、視覚コミュニティから広く注目を集めています。
この論文では、3D シーンが区分平面で構成されていると仮定することにより、単眼奥行き推定のための新しい物理 (幾何学) 駆動型深層学習フレームワークを提案します。
特に、各位置での深さを導出するために、ピクセルレベルの表面法線と平面から原点までの距離を出力する新しい法線距離ヘッドを導入します。
一方、法線と距離は、開発された平面を意識した一貫性制約によって正規化されます。
提案されたフレームワークの堅牢性を向上させるために、追加の深度ヘッドをさらに統合します。
これら 2 つのヘッドの長所を最大限に活用するために、深さの不確かさに応じて相補的な方法で深さを調整する、効果的な対照反復リファインメント モジュールを開発します。
広範な実験により、提案された方法が NYU-Depth-v2、KITTI、および SUN RGB-D データセットに関するこれまでの最先端の競合他社を超えていることが示されています。
注目すべき点は、提出時点で KITTI 深度予測オンライン ベンチマークですべての提出の中で 1 位にランクされているということです。
要約(オリジナル)
Monocular depth estimation has drawn widespread attention from the vision community due to its broad applications. In this paper, we propose a novel physics (geometry)-driven deep learning framework for monocular depth estimation by assuming that 3D scenes are constituted by piece-wise planes. Particularly, we introduce a new normal-distance head that outputs pixel-level surface normal and plane-to-origin distance for deriving depth at each position. Meanwhile, the normal and distance are regularized by a developed plane-aware consistency constraint. We further integrate an additional depth head to improve the robustness of the proposed framework. To fully exploit the strengths of these two heads, we develop an effective contrastive iterative refinement module that refines depth in a complementary manner according to the depth uncertainty. Extensive experiments indicate that the proposed method exceeds previous state-of-the-art competitors on the NYU-Depth-v2, KITTI and SUN RGB-D datasets. Notably, it ranks 1st among all submissions on the KITTI depth prediction online benchmark at the submission time.
arxiv情報
著者 | Shuwei Shao,Zhongcai Pei,Weihai Chen,Xingming Wu,Zhengguo Li |
発行日 | 2023-09-19 13:05:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google