要約
自己教師あり単眼深度推定 (MDE) は、ビデオから直接深度予測を取得するために人気を集めています。
ただし、これらの方法では、追加のトレーニング信号が提供されない限り、スケール不変の結果が生成されることがよくあります。
この課題に対処するために、単眼ビデオ データとカメラの取り付け位置のみを必要とする新しい自己監視型メートルスケール MDE モデルを導入します。これらはどちらも現代の車両で容易に利用できます。
私たちのアプローチは、平面視差ジオメトリを利用してシーン構造を再構築します。
完全なパイプラインは、マルチフレーム ネットワーク、シングルフレーム ネットワーク、ポーズ ネットワークという 3 つの主要なネットワークで構成されます。
マルチフレーム ネットワークは連続フレームを処理し、平面視差ジオメトリとカメラの取り付け位置を使用して静的シーンの構造を推定します。
この再構成に基づいて、スケール情報、マスクされた走行可能エリア、静的シーンのメートルスケールの深さ、および動的オブジェクト マスクなどの知識を単一フレーム ネットワークに抽出する教師として機能します。
また、ポーズ ネットワークが 2 つの後続の画像間のメートルスケールの相対ポーズを予測するのにも役立ちます。
私たちの手法は、メートルスケールの深度予測のベンチマーク KITTI に関して最先端の結果を達成しました。
特に、これは、困難な都市景観データセットに対して自己監視型メトリクススケールの深度予測を生成する最初の方法の 1 つであり、その有効性と多用途性を実証しています。
要約(オリジナル)
Self-supervised monocular depth estimation (MDE) has gained popularity for obtaining depth predictions directly from videos. However, these methods often produce scale invariant results, unless additional training signals are provided. Addressing this challenge, we introduce a novel self-supervised metric-scaled MDE model that requires only monocular video data and the camera’s mounting position, both of which are readily available in modern vehicles. Our approach leverages planar-parallax geometry to reconstruct scene structure. The full pipeline consists of three main networks, a multi-frame network, a singleframe network, and a pose network. The multi-frame network processes sequential frames to estimate the structure of the static scene using planar-parallax geometry and the camera mounting position. Based on this reconstruction, it acts as a teacher, distilling knowledge such as scale information, masked drivable area, metric-scale depth for the static scene, and dynamic object mask to the singleframe network. It also aids the pose network in predicting a metric-scaled relative pose between two subsequent images. Our method achieved state-of-the-art results for the driving benchmark KITTI for metric-scaled depth prediction. Notably, it is one of the first methods to produce self-supervised metric-scaled depth prediction for the challenging Cityscapes dataset, demonstrating its effectiveness and versatility.
arxiv情報
著者 | Gasser Elazab,Torben Gräber,Michael Unterreiner,Olaf Hellwich |
発行日 | 2024-11-29 14:06:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google