要約
深度センサを使用できない自律走行車では、物体までの距離を推定することが重要である。この場合、車載されたRGBカメラから距離を推定する必要があるが、特に屋外の自然景観のような環境では複雑なタスクとなる。本論文では、M4Depthと名付けた新しい奥行き推定手法を提案する。まず、連続する2つのフレームの視差と奥行きとの間に双対的な関係を確立し、それを利用して動きに対して不変なピクセル単位の奥行き推定を行う方法を示す。M4Depthは、ピラミッド型畳み込みニューラルネットワークをベースとし、各レベルが2つのカスタマイズされたコストボリュームを用いて入力視差マップの推定値を精細化するものである。これらのコストボリュームは、動きによる視覚的な時空間制約を利用し、様々なシーンに対してロバストなネットワークを実現するために使用される。我々は、様々な屋外シーンで記録された合成カメラの軌跡を含む公開データセットを用いて、テストモードと一般化モードの両方で我々のアプローチをベンチマークした。その結果、我々のネットワークはこれらのデータセットにおいて最先端の技術を凌駕し、同時に標準的な深度推定ベンチマークにおいても良好な性能を示した。本手法のコードは、https://github.com/michael-fonder/M4Depth で公開されている。
要約(オリジナル)
Estimating the distance to objects is crucial for autonomous vehicles when using depth sensors is not possible. In this case, the distance has to be estimated from on-board mounted RGB cameras, which is a complex task especially in environments such as natural outdoor landscapes. In this paper, we present a new method named M4Depth for depth estimation. First, we establish a bijective relationship between depth and the visual disparity of two consecutive frames and show how to exploit it to perform motion-invariant pixel-wise depth estimation. Then, we detail M4Depth which is based on a pyramidal convolutional neural network architecture where each level refines an input disparity map estimate by using two customized cost volumes. We use these cost volumes to leverage the visual spatio-temporal constraints imposed by motion and to make the network robust for varied scenes. We benchmarked our approach both in test and generalization modes on public datasets featuring synthetic camera trajectories recorded in a wide variety of outdoor scenes. Results show that our network outperforms the state of the art on these datasets, while also performing well on a standard depth estimation benchmark. The code of our method is publicly available at https://github.com/michael-fonder/M4Depth.
arxiv情報
著者 | Michaël Fonder,Damien Ernst,Marc Van Droogenbroeck |
発行日 | 2022-07-01 10:08:30+00:00 |
arxivサイト | arxiv_id(pdf) |