要約
自動運転車向けの正確で堅牢な 3D オブジェクト検出システムを構築するには、特にカメラと LiDAR 間のマルチモーダル フュージョンを活用することが不可欠になっています。
最近まで、点群をカメラ機能で補強する点装飾アプローチが、この分野で主流でした。
ただし、これらのアプローチでは、カメラからの高解像度の画像を利用できません。
フュージョンのためにカメラの特徴を鳥瞰図 (BEV) 空間に投影する最近の研究も提案されていますが、それらは何百万ものピクセルを投影する必要があり、そのほとんどは背景情報のみを含んでいます。
この作業では、新しいアプローチ Center Feature Fusion (CFF) を提案します。このアプローチでは、カメラと LiDAR ストリームの両方でセンターベースの検出ネットワークを活用して、関連するオブジェクトの位置を特定します。
次に、中心ベースの検出を使用して、オブジェクトの位置に関連するピクセル機能の位置を特定します。これは、画像内の総数のごく一部です。
次に、これらが投影され、BEV フレームに融合されます。
nuScenes データセットでは、LiDAR のみのベースラインを 4.9% mAP 上回っていますが、他の融合方法よりも最大 100 倍少ない機能を融合しています。
要約(オリジナル)
Leveraging multi-modal fusion, especially between camera and LiDAR, has become essential for building accurate and robust 3D object detection systems for autonomous vehicles. Until recently, point decorating approaches, in which point clouds are augmented with camera features, have been the dominant approach in the field. However, these approaches fail to utilize the higher resolution images from cameras. Recent works projecting camera features to the bird’s-eye-view (BEV) space for fusion have also been proposed, however they require projecting millions of pixels, most of which only contain background information. In this work, we propose a novel approach Center Feature Fusion (CFF), in which we leverage center-based detection networks in both the camera and LiDAR streams to identify relevant object locations. We then use the center-based detection to identify the locations of pixel features relevant to object locations, a small fraction of the total number in the image. These are then projected and fused in the BEV frame. On the nuScenes dataset, we outperform the LiDAR-only baseline by 4.9% mAP while fusing up to 100x fewer features than other fusion methods.
arxiv情報
著者 | Philip Jacobson,Yiyang Zhou,Wei Zhan,Masayoshi Tomizuka,Ming C. Wu |
発行日 | 2022-09-26 17:51:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google