要約
自動運転アプリケーションでは、LiDAR データは 3D での距離に関する正確な情報を提供しますが、カメラ データのような豊富な意味論には欠けています。
したがって、都市シーンにおける知覚のための最先端の方法では、両方のタイプのセンサーからのデータが融合されます。
この研究では、自動運転アプリケーションのために LiDAR とカメラ データを融合するための新しい自己監視型手法を紹介します。
私たちはマスクされたオートエンコーダー (MAE) を基盤として構築し、深層学習モデルをトレーニングして、融合された LiDAR とカメラの特徴からマスクされた LiDAR データを再構築します。
鳥瞰図表現を使用する関連手法とは対照的に、高密度の球状 LiDAR 投影からの特徴と、同様の視野を持つ魚眼カメラのクロップからの特徴を融合します。
したがって、学習した空間変換を適度な遠近変換に削減し、高密度の LiDAR 表現を生成するために追加のモジュールを必要としません。
コードは https://github.com/KIT-MRT/masked-fusion-360 で入手できます。
要約(オリジナル)
In self-driving applications, LiDAR data provides accurate information about distances in 3D but lacks the semantic richness of camera data. Therefore, state-of-the-art methods for perception in urban scenes fuse data from both sensor types. In this work, we introduce a novel self-supervised method to fuse LiDAR and camera data for self-driving applications. We build upon masked autoencoders (MAEs) and train deep learning models to reconstruct masked LiDAR data from fused LiDAR and camera features. In contrast to related methods that use birds-eye-view representations, we fuse features from dense spherical LiDAR projections and features from fish-eye camera crops with a similar field of view. Therefore, we reduce the learned spatial transformations to moderate perspective transformations and do not require additional modules to generate dense LiDAR representations. Code is available at: https://github.com/KIT-MRT/masked-fusion-360
arxiv情報
著者 | Royden Wagner,Marvin Klemp,Carlos Fernandez Lopez |
発行日 | 2023-06-12 13:01:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google