UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models

要約

古典的なコンピュータ ビジョンでは、修正はマルチビューの深度推定に不可欠な部分です。
通常、エピポーラ整流とレンズ歪み補正が含まれます。
このプロセスにより深度推定が大幅に簡素化されるため、CNN アプローチで採用されています。
ただし、整流には、視野 (FOV) の減少、リサンプリング歪み、キャリブレーション誤差に対する感度など、いくつかの副作用があります。
この影響は、歪みが大きい場合 (広角魚眼カメラなど) に特に顕著です。
この論文では、補正されていない単眼ビデオから深度、ユークリッド距離、視覚オドメトリを推定するための、一般的なスケールを意識した自己教師ありパイプラインを提案します。
補正されていない KITTI データセットでも、補正された KITTI データセットと同等の樽型歪みを伴う同様のレベルの精度を実証しました。
直観的には、整流ステップは CNN モデル内で暗黙的に吸収できるため、複雑さを増すことなく歪みモデルを学習できます。
私たちのアプローチは視野の減少による影響を受けず、推論時の修正のための計算コストを回避します。
提案されたフレームワークの一般的な適用性をさらに説明するために、水平視野が 190$^\circ$ の広角魚眼カメラにそれを適用します。
トレーニング フレームワーク UnRectDepthNet は、カメラの歪みモデルを引数として受け取り、それに応じて投影関数と非投影関数を適応させます。
提案されたアルゴリズムは KITTI 修正データセットでさらに評価され、以前の研究 FisheyeDistanceNet を改善する最先端の結果が得られました。
歪んだテスト シーン ビデオ シーケンスの定性的結果は、優れたパフォーマンスを示しています https://youtu.be/K6pbx3bU4Ss。

要約(オリジナル)

In classical computer vision, rectification is an integral part of multi-view depth estimation. It typically includes epipolar rectification and lens distortion correction. This process simplifies the depth estimation significantly, and thus it has been adopted in CNN approaches. However, rectification has several side effects, including a reduced field of view (FOV), resampling distortion, and sensitivity to calibration errors. The effects are particularly pronounced in case of significant distortion (e.g., wide-angle fisheye cameras). In this paper, we propose a generic scale-aware self-supervised pipeline for estimating depth, euclidean distance, and visual odometry from unrectified monocular videos. We demonstrate a similar level of precision on the unrectified KITTI dataset with barrel distortion comparable to the rectified KITTI dataset. The intuition being that the rectification step can be implicitly absorbed within the CNN model, which learns the distortion model without increasing complexity. Our approach does not suffer from a reduced field of view and avoids computational costs for rectification at inference time. To further illustrate the general applicability of the proposed framework, we apply it to wide-angle fisheye cameras with 190$^\circ$ horizontal field of view. The training framework UnRectDepthNet takes in the camera distortion model as an argument and adapts projection and unprojection functions accordingly. The proposed algorithm is evaluated further on the KITTI rectified dataset, and we achieve state-of-the-art results that improve upon our previous work FisheyeDistanceNet. Qualitative results on a distorted test scene video sequence indicate excellent performance https://youtu.be/K6pbx3bU4Ss.

arxiv情報

著者 Varun Ravi Kumar,Senthil Yogamani,Markus Bach,Christian Witt,Stefan Milz,Patrick Mader
発行日 2023-06-06 14:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク