MambaBEV: An efficient 3D detection model with Mamba2

要約

時間情報を備えた BEV パラダイムに基づく安定した 3D 物体検出モデルは、自動運転システムにとって非常に重要です。
しかし、畳み込み層や変形可能な自己注意を使用する現在の時間融合モデルは、BEV 空間のグローバル情報の交換には役立たず、計算コストが高くなります。
最近、マンバと呼ばれる処理シーケンスに特化した新たに提案されたベースモデルが、複数の下流タスクにおいて大きな可能性を示しています。
この研究では、MambaBEV という名前の mamba2 ベースの BEV 3D 物体検出モデルを提案しました。
また、モデルのパフォーマンスをテストするためにエンドツーエンドの自動運転パラダイムを適応させます。
私たちの作業は、nunces データセットでかなり良い結果をもたらしました。私たちの基本バージョンは 51.7% の NDS を達成しました。
私たちのコードは間もなく利用可能になります。

要約(オリジナル)

A stable 3D object detection model based on BEV paradigm with temporal information is very important for autonomous driving systems. However, current temporal fusion model use convolutional layer or deformable self-attention is not conducive to the exchange of global information of BEV space and has more computational cost. Recently, a newly proposed based model specialized in processing sequence called mamba has shown great potential in multiple downstream task. In this work, we proposed a mamba2-based BEV 3D object detection model named MambaBEV. We also adapt an end to end self driving paradigm to test the performance of the model. Our work performs pretty good results on nucences datasets:Our base version achieves 51.7% NDS. Our code will be available soon.

arxiv情報

著者 Zihan You,Hao Wang,Qichao Zhao,Jinxiang Wang
発行日 2024-10-16 15:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク