要約
本論文では、エンドツーエンドの3Dマルチモーダル検出のために、Cross Modal Transformer (CMT)と名付けたロバストな3D検出器を提案する。CMTは、明示的なビュー変換を行わず、画像と点群トークンを入力とし、直接正確な3Dバウンディングボックスを出力する。マルチモーダルトークンの空間的な位置合わせは、3Dポイントをマルチモーダル特徴にエンコードすることにより、暗黙的に行われます。CMTのコアデザインは非常にシンプルであるが、その性能は印象的である。CMTはnuScenesベンチマークで73.0%のNDSを達成した。さらに、CMTはLiDARが欠落した場合にも強いロバスト性を持っています。コードは https://github.com/junjie18/CMT で公開される予定である。
要約(オリジナル)
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
arxiv情報
著者 | Junjie Yan,Yingfei Liu,Jianjian Sun,Fan Jia,Shuailin Li,Tiancai Wang,Xiangyu Zhang |
発行日 | 2023-01-03 18:36:52+00:00 |
arxivサイト | arxiv_id(pdf) |