要約
インテリジェント輸送システム(ITS)および車両からすべての(V2X)タスクにサービスを提供することで、路側の認識は、接続された車両の認識範囲を拡張し、交通安全を改善できるため、近年注目を集めています。
ただし、道端のポイントクラウド指向の3Dオブジェクト検出は効果的に検討されていません。
ある程度、ポイントクラウド検出器のパフォーマンスの鍵は、ネットワークの受容フィールドとシーンコンテキストを効果的に利用する能力にあります。
状態宇宙モデル(SSM)に基づいたマンバの最近の出現は、その効率的なグローバル受容フィールドのために、長い間基礎的なビルディングブロックであった伝統的な畳み込みと変圧器を揺さぶってきました。
この作業では、Mambaを柱ベースの道端の雲の知覚に紹介し、Pillarmambaと呼ばれるクロスステージ状態空間グループ(CSG)に基づいたフレームワークを提案します。
ネットワークの表現力を高め、クロスステージの特徴融合を通じて効率的な計算を達成します。
ただし、スキャン方向の制限により、状態空間モデルはローカル接続の混乱と歴史的な関係に直面しています。
これに対処するために、ハイブリッド状態空間ブロック(HSB)を提案して、道端のポイントクラウドのローカルグローバルコンテキストを取得します。
具体的には、局所的な畳み込みを通じて近隣のつながりを高め、残りの注意を通して歴史的記憶を維持します。
提案された方法は、人気のある大規模な道端のベンチマークであるDair-V2X-Iの最先端の方法よりも優れています。
コードはまもなくリリースされます。
要約(オリジナル)
Serving the Intelligent Transport System (ITS) and Vehicle-to-Everything (V2X) tasks, roadside perception has received increasing attention in recent years, as it can extend the perception range of connected vehicles and improve traffic safety. However, roadside point cloud oriented 3D object detection has not been effectively explored. To some extent, the key to the performance of a point cloud detector lies in the receptive field of the network and the ability to effectively utilize the scene context. The recent emergence of Mamba, based on State Space Model (SSM), has shaken up the traditional convolution and transformers that have long been the foundational building blocks, due to its efficient global receptive field. In this work, we introduce Mamba to pillar-based roadside point cloud perception and propose a framework based on Cross-stage State-space Group (CSG), called PillarMamba. It enhances the expressiveness of the network and achieves efficient computation through cross-stage feature fusion. However, due to the limitations of scan directions, state space model faces local connection disrupted and historical relationship forgotten. To address this, we propose the Hybrid State-space Block (HSB) to obtain the local-global context of roadside point cloud. Specifically, it enhances neighborhood connections through local convolution and preserves historical memory through residual attention. The proposed method outperforms the state-of-the-art methods on the popular large scale roadside benchmark: DAIR-V2X-I. The code will be released soon.
arxiv情報
著者 | Zhang Zhang,Chao Sun,Chao Yue,Da Wen,Tianze Wang,Jianghao Leng |
発行日 | 2025-05-08 16:33:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google