要約
タイトル:Center Feature Fusion:センターをベースとしたオブジェクトの選択的な多センサーフュージョン
要約:
– 自律走行車の正確で堅牢な3Dオブジェクト検出システムを構築するために、特にカメラとLiDARの間の多モーダルフュージョンを利用することが必須になってきている。
– 最近まで、ポイントクラウドにカメラの特徴を付加するポイントドランシング手法がこの分野で主流であったが、これらの手法ではカメラからの高解像度画像を利用することはできない。
– 最近の研究では、カメラの特徴を鳥瞰図(BEV)空間に投影してフュージョンする手法が提案されているが、これらでは背景情報を含む多数のピクセルを投影する必要がある。
– この研究では、センターをベースにした検出ネットワークをカメラとLiDARの両方で利用して、関連するオブジェクトの位置を特定する新しいアプローチCenter Feature Fusion(CFF)を提案する。
– 次に、オブジェクトの位置に関連するピクセル特徴の位置を特定し、画像全体のごく一部分しか占めていない。これらをBEVフレームに投影してフュージョンする。
– nuScenesデータセットでは、他のフュージョン手法よりも100倍少ないフュージョンを行いながら、LiDARのみのベースラインを4.9%上回るmAPを達成した。
要約(オリジナル)
Leveraging multi-modal fusion, especially between camera and LiDAR, has become essential for building accurate and robust 3D object detection systems for autonomous vehicles. Until recently, point decorating approaches, in which point clouds are augmented with camera features, have been the dominant approach in the field. However, these approaches fail to utilize the higher resolution images from cameras. Recent works projecting camera features to the bird’s-eye-view (BEV) space for fusion have also been proposed, however they require projecting millions of pixels, most of which only contain background information. In this work, we propose a novel approach Center Feature Fusion (CFF), in which we leverage center-based detection networks in both the camera and LiDAR streams to identify relevant object locations. We then use the center-based detection to identify the locations of pixel features relevant to object locations, a small fraction of the total number in the image. These are then projected and fused in the BEV frame. On the nuScenes dataset, we outperform the LiDAR-only baseline by 4.9% mAP while fusing up to 100x fewer features than other fusion methods.
arxiv情報
著者 | Philip Jacobson,Yiyang Zhou,Wei Zhan,Masayoshi Tomizuka,Ming C. Wu |
発行日 | 2023-04-26 23:55:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI