要約
既存の単眼深度推定方法は大きな進歩を遂げましたが、ネットワークのモデリング容量の制限とスケールのあいまいさの問題により、単一の画像から正確な絶対深度マップを予測することは依然として困難です。
この論文では、空間的注意とチャネル注意がすべての段階に適用される、完全に視覚的注意ベースの深さ (VADepth) ネットワークを紹介します。
VADepth ネットワークは、空間次元とチャネル次元に沿ってフィーチャの依存関係を長距離にわたって継続的に抽出することにより、重要な詳細を効果的に保持し、干渉するフィーチャを抑制して、シーン構造をより正確に認識し、より正確な深度推定を実現できます。
さらに、幾何学的事前確率を利用して、スケール対応モデル トレーニングのスケール制約を形成します。
具体的には、カメラと、画像の下部中央にある長方形領域のピクセルに対応する地面の点によって適合される平面との間の距離を使用して、新しいスケール認識損失を構築します。
KITTI データセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成し、私たちの方法が後処理なしで絶対深度を直接出力できることを示しています。
さらに、SeasonDepth データセットでの実験では、複数の目に見えない環境に対するモデルの堅牢性も実証されています。
要約(オリジナル)
Although existing monocular depth estimation methods have made great progress, predicting an accurate absolute depth map from a single image is still challenging due to the limited modeling capacity of networks and the scale ambiguity issue. In this paper, we introduce a fully Visual Attention-based Depth (VADepth) network, where spatial attention and channel attention are applied to all stages. By continuously extracting the dependencies of features along the spatial and channel dimensions over a long distance, VADepth network can effectively preserve important details and suppress interfering features to better perceive the scene structure for more accurate depth estimates. In addition, we utilize geometric priors to form scale constraints for scale-aware model training. Specifically, we construct a novel scale-aware loss using the distance between the camera and a plane fitted by the ground points corresponding to the pixels of the rectangular area in the bottom middle of the image. Experimental results on the KITTI dataset show that this architecture achieves the state-of-the-art performance and our method can directly output absolute depth without post-processing. Moreover, our experiments on the SeasonDepth dataset also demonstrate the robustness of our model to multiple unseen environments.
arxiv情報
著者 | Jie Xiang,Yun Wang,Lifeng An,Haiyang Liu,Zijun Wang,Jian Liu |
発行日 | 2022-09-20 15:11:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google