TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

要約

【タイトル】トランスフォーマベースのカメラとレーダーの融合による3D物体検出(TransCAR)

【要約】
・自動車産業においてレーダーは一般的だが、3D物体検出のための融合において、既存の多くの研究はLiDARとカメラの融合に焦点を当てたものが多い。
・本論文では、3D物体検出のためのトランスフォーマベースのカメラとレーダーの融合解決策であるTransCARを提案する。
・TransCARには2つのモジュールがある。1つ目は周囲の視点カメラ画像から2D特徴量を学習し、スパースなセットの3Dオブジェクトのクエリを使用してこれらの2D特徴量にインデックスを付けるものである。視覚更新されたクエリは、トランスフォーマー自己注意層を介して相互作用する。2番目のモジュールは、複数のレーダースキャンからレーダー特徴量を学習し、トランスフォーマーデコーダを適用して、レーダー特徴量と視覚更新されたクエリの相互作用を学習するものである。クロス注意層は、センサーキャリブレーションに基づく固定的な関連付けではなく、レーダー特徴量と視覚更新に基づく柔軟な関連付けを自動的に学習することができる。最後に、ハンガリアンロスを使用して、クエリごとに境界ボックスを推定するようにモデルを構築しているため、非最大抑制を回避できる。
・TransCARは、レーダースキャンの時間的情報を使用せずに速度推定を改善する。TransCARは、nuscenesデータセットでの優れた実験結果が示すように、最先端のカメラ・レーダー融合型3D物体検出手法を凌駕する性能を持っている。

要約(オリジナル)

Despite radar’s popularity in the automotive industry, for fusion-based 3D object detection, most existing works focus on LiDAR and camera fusion. In this paper, we propose TransCAR, a Transformer-based Camera-And-Radar fusion solution for 3D object detection. Our TransCAR consists of two modules. The first module learns 2D features from surround-view camera images and then uses a sparse set of 3D object queries to index into these 2D features. The vision-updated queries then interact with each other via transformer self-attention layer. The second module learns radar features from multiple radar scans and then applies transformer decoder to learn the interactions between radar features and vision-updated queries. The cross-attention layer within the transformer decoder can adaptively learn the soft-association between the radar features and vision-updated queries instead of hard-association based on sensor calibration only. Finally, our model estimates a bounding box per query using set-to-set Hungarian loss, which enables the method to avoid non-maximum suppression. TransCAR improves the velocity estimation using the radar scans without temporal information. The superior experimental results of our TransCAR on the challenging nuScenes datasets illustrate that our TransCAR outperforms state-of-the-art Camera-Radar fusion-based 3D object detection approaches.

arxiv情報

著者 Su Pang,Daniel Morris,Hayder Radha
発行日 2023-04-30 05:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク