要約
タイトル:SDVRF:マルチモーダル3Dオブジェクト検出のための疎から密なボクセル領域融合
要約:
– 自動運転の知覚タスクにおいて、LiDAR点群と画像データの相補的な特性のため、マルチモーダル手法が流行している。
– しかし、先行研究の方法の性能は、点群のまばらさやLiDARとカメラの不整合によるノイズ問題によって通常限定されている。
– これら2つの問題を解決するために、ボクセル領域(VR)という新しい概念を提案する。
– VRは、各ボクセル内のまばらな局所点群を動的に投影して得られる。
– そして、疎な点から抽出されたボクセル特徴を補足するために、VR内の画像特徴マップのより多くのピクセルが集められてより密な融合を実現するSparse-to-Dense Voxel Region Fusion(SDVRF)という新しい融合方法を提案する。
– 従来の方法とは異なり、サイズ固定のグリッドを投影するのではなく、動的な領域を生成することにより、より良い整列を実現し、余分な背景ノイズを導入せずに済む。
– さらに、異なるサイズのオブジェクトの特徴をキャプチャするために、マルチスケール融合フレームワークを提案する。
– KITTIデータセット上の実験結果は、PedestrianやCyclistなどの小さなサイズのクラスでも、パフォーマンスを改善することを示している。
要約(オリジナル)
In the perception task of autonomous driving, multi-modal methods have become a trend due to the complementary characteristics of LiDAR point clouds and image data. However, the performance of previous methods is usually limited by the sparsity of the point cloud or the noise problem caused by the misalignment between LiDAR and the camera. To solve these two problems, we present a new concept, Voxel Region (VR), which is obtained by projecting the sparse local point clouds in each voxel dynamically. And we propose a novel fusion method, named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically, more pixels of the image feature map inside the VR are gathered to supplement the voxel feature extracted from sparse points and achieve denser fusion. Meanwhile, different from prior methods, which project the size-fixed grids, our strategy of generating dynamic regions achieves better alignment and avoids introducing too much background noise. Furthermore, we propose a multi-scale fusion framework to extract more contextual information and capture the features of objects of different sizes. Experiments on the KITTI dataset show that our method improves the performance of different baselines, especially on classes of small size, including Pedestrian and Cyclist.
arxiv情報
著者 | Binglu Ren,Jianqin Yin |
発行日 | 2023-04-17 14:17:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI