要約
深度推定は、自動運転などのさまざまな重要な現実世界のアプリケーションに不可欠です。
ただし、従来のカメラはぼやけた画像しかキャプチャできないため、高速シナリオではパフォーマンスが大幅に低下します。
この問題に対処するために、スパイク カメラは高フレーム レートでピクセル単位の輝度強度をキャプチャするように設計されています。
ただし、スパイク カメラを使用した深度推定は、測光の一貫性に基づく従来の単眼またはステレオ深度推定アルゴリズムを使用した場合、依然として非常に困難です。
この論文では、スパイクカメラの単眼およびステレオ深度推定ネットワークの予測を融合するための新しい不確実性ガイド付き深度融合(UGDF)フレームワークを提案します。
私たちのフレームワークは、ステレオスパイク深度推定が近距離でより良い結果を達成し、単眼スパイク深度推定が遠距離でより良い結果を得るという事実によって動機付けられています。
したがって、共同トレーニング戦略を使用したデュアルタスク深度推定アーキテクチャを導入し、分散された不確実性を推定して、単眼とステレオの結果を融合させます。
従来のカメラ深度推定に対するスパイク深度推定の利点を実証するために、スパイク深度推定用に 20K のペア サンプルを含む CitySpike20K という名前のスパイク深度データセットを提供します。
UGDF は CitySpike20K で最先端の結果を達成し、すべての単眼またはステレオ スパイク深度推定ベースラインを上回ります。
CitySpike20K での方法の有効性と一般化を評価するために、広範な実験を行います。
私たちの知る限り、私たちのフレームワークは、スパイク カメラ深度推定のための最初のデュアル タスク フュージョン フレームワークです。
コードとデータセットがリリースされます。
要約(オリジナル)
Depth estimation is essential for various important real-world applications such as autonomous driving. However, it suffers from severe performance degradation in high-velocity scenario since traditional cameras can only capture blurred images. To deal with this problem, the spike camera is designed to capture the pixel-wise luminance intensity at high frame rate. However, depth estimation with spike camera remains very challenging using traditional monocular or stereo depth estimation algorithms, which are based on the photometric consistency. In this paper, we propose a novel Uncertainty-Guided Depth Fusion (UGDF) framework to fuse the predictions of monocular and stereo depth estimation networks for spike camera. Our framework is motivated by the fact that stereo spike depth estimation achieves better results at close range while monocular spike depth estimation obtains better results at long range. Therefore, we introduce a dual-task depth estimation architecture with a joint training strategy and estimate the distributed uncertainty to fuse the monocular and stereo results. In order to demonstrate the advantage of spike depth estimation over traditional camera depth estimation, we contribute a spike-depth dataset named CitySpike20K, which contains 20K paired samples, for spike depth estimation. UGDF achieves state-of-the-art results on CitySpike20K, surpassing all monocular or stereo spike depth estimation baselines. We conduct extensive experiments to evaluate the effectiveness and generalization of our method on CitySpike20K. To the best of our knowledge, our framework is the first dual-task fusion framework for spike camera depth estimation. Code and dataset will be released.
arxiv情報
著者 | Jianing Li,Jiaming Liu,Xiaobao Wei,Jiyuan Zhang,Ming Lu,Lei Ma,Li Du,Tiejun Huang,Shanghang Zhang |
発行日 | 2022-08-26 13:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google