要約
昼と夜の異なる照明条件下での深度推定方法を提案する。
低照度の領域では測光は有益ではないため、マルチセンサーフュージョンアプローチを通じて問題に取り組みます。このアプローチでは、まばらな深度として画像平面に投影された追加の同期されたまばらな点群(つまり、LiDAR から)を入力として受け取ります。
地図とカメラ画像。
私たちの方法の核心は、豊富に利用可能な合成データを使用して、まずスパースから (粗い) デンス深度マップへのマッピングとその予測不確実性を学習することで 3D シーン構造を近似することにあります。これを SpaDe と呼びます。
測光強度が局所的な形状を推測できない、照明が不十分な領域では、シーン深度の粗い近似が事前分布として機能します。
次に、不確実性マップを画像とともに使用して、不確実性主導の残差学習 (URL) スキームによる改良をガイドします。
結果として得られる深度補完ネットワークは、両方のモダリティの相補的な長所を活用します。深度はまばらですが、照明やメートルスケールの影響を受けにくく、画像は高密度ですが、スケールの曖昧さにより敏感です。
SpaDe はプラグ アンド プレイ方式で使用でき、スパースの深さを前処理する既存の方法に拡張すると 25% の改善が可能です。
nuScenes データセットの URL をデモします。そこでは、すべてのベースラインに対して、終日シナリオで平均 11.65%、日中専用のテストで 11.23%、夜間シーンで 13.12% 改善しました。
要約(オリジナル)
We propose a method for depth estimation under different illumination conditions, i.e., day and night time. As photometry is uninformative in regions under low-illumination, we tackle the problem through a multi-sensor fusion approach, where we take as input an additional synchronized sparse point cloud (i.e., from a LiDAR) projected onto the image plane as a sparse depth map, along with a camera image. The crux of our method lies in the use of the abundantly available synthetic data to first approximate the 3D scene structure by learning a mapping from sparse to (coarse) dense depth maps along with their predictive uncertainty – we term this, SpaDe. In poorly illuminated regions where photometric intensities do not afford the inference of local shape, the coarse approximation of scene depth serves as a prior; the uncertainty map is then used with the image to guide refinement through an uncertainty-driven residual learning (URL) scheme. The resulting depth completion network leverages complementary strengths from both modalities – depth is sparse but insensitive to illumination and in metric scale, and image is dense but sensitive with scale ambiguity. SpaDe can be used in a plug-and-play fashion, which allows for 25% improvement when augmented onto existing methods to preprocess sparse depth. We demonstrate URL on the nuScenes dataset where we improve over all baselines by an average 11.65% in all-day scenarios, 11.23% when tested specifically for daytime, and 13.12% for nighttime scenes.
arxiv情報
著者 | Vadim Ezhov,Hyoungseob Park,Zhaoyang Zhang,Rishi Upadhyay,Howard Zhang,Chethan Chinder Chandrappa,Achuta Kadambi,Yunhao Ba,Julie Dorsey,Alex Wong |
発行日 | 2024-05-27 16:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google