Joint Prediction of Monocular Depth and Structure using Planar and Parallax Geometry

要約

教師あり学習の深さ推定方法は、LiDARデータのように、高品質のグラウンドトゥルースでトレーニングすると、優れたパフォーマンスを実現できます。
ただし、LiDARはスパース3Dマップしか生成できないため、情報が失われます。
ピクセルごとに高品質のグラウンドトゥルース深度データを取得することは困難です。
この制限を克服するために、有望な平面および視差ジオメトリパイプラインからの構造情報と深度情報を組み合わせてU-Net監視学習ネットワークに組み込む新しいアプローチを提案します。これにより、既存の一般的な学習ベースの方法と比較して、定量的および定性的な改善が実現します。

特に、モデルは2つの大規模でやりがいのあるデータセットで評価されます。KITTIVisionBenchmarkおよびCityscapesデータセットであり、相対誤差の点で最高のパフォーマンスを実現します。
純粋な深度監視モデルと比較して、私たちのモデルは薄いオブジェクトとエッジの深度予測で優れたパフォーマンスを発揮し、構造予測ベースラインと比較して、私たちのモデルはより堅牢に機能します。

要約(オリジナル)

Supervised learning depth estimation methods can achieve good performance when trained on high-quality ground-truth, like LiDAR data. However, LiDAR can only generate sparse 3D maps which causes losing information. Obtaining high-quality ground-truth depth data per pixel is difficult to acquire. In order to overcome this limitation, we propose a novel approach combining structure information from a promising Plane and Parallax geometry pipeline with depth information into a U-Net supervised learning network, which results in quantitative and qualitative improvement compared to existing popular learning-based methods. In particular, the model is evaluated on two large-scale and challenging datasets: KITTI Vision Benchmark and Cityscapes dataset and achieve the best performance in terms of relative error. Compared with pure depth supervision models, our model has impressive performance on depth prediction of thin objects and edges, and compared to structure prediction baseline, our model performs more robustly.

arxiv情報

著者 Hao Xing,Yifan Cao,Maximilian Biber,Mingchuan Zhou,Darius Burschka
発行日 2022-07-13 17:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク