Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

要約

本論文では、エンドツーエンドの3Dマルチモーダル検出のために、Cross Modal Transformer (CMT)と名付けたロバストな3D検出器を提案する。CMTは、明示的なビュー変換を行わず、画像と点群トークンを入力とし、直接正確な3Dバウンディングボックスを出力する。マルチモーダルトークンの空間的な位置合わせは、3Dポイントをマルチモーダル特徴にエンコードすることにより、暗黙的に行われます。CMTのコアデザインは非常にシンプルであるが、その性能は印象的である。CMTはnuScenesベンチマークで73.0%のNDSを達成した。さらに、CMTはLiDARが欠落した場合にも強いロバスト性を持っています。コードは https://github.com/junjie18/CMT で公開される予定である。

要約(オリジナル)

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

arxiv情報

著者 Junjie Yan,Yingfei Liu,Jianjian Sun,Fan Jia,Shuailin Li,Tiancai Wang,Xiangyu Zhang
発行日 2023-01-03 18:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク