CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model

要約

相補的な知覚情報を共有することにより、複数のエージェントが協力して知覚することで、環境についてのより深い理解を促進します。
協調的知覚に関する最近の研究では、空間次元での特徴表現と融合を学習するために主に CNN またはトランスフォーマーを利用していますが、限られたコンピューティングおよび通信リソースの下で長距離の時空間特徴を処理するのは困難です。
広範囲の空間領域と拡張された時間フレームにわたる依存関係を総合的にモデル化することは、特徴の品質を向上させるために重要です。
この目的を達成するために、我々は、CollaMamba という名前の、リソース効率の高いクロスエージェント時空間協調状態空間モデル (SSM) を提案します。
最初に、空間 SSM に基づいて基礎的なバックボーン ネットワークを構築します。
このバックボーンは、シングル エージェント ビューとクロス エージェント ビューの両方から位置の因果関係を適切に捕捉し、線形の複雑さを維持しながら、コンパクトで包括的な中間機能を生成します。
さらに、時間 SSM に基づいて履歴認識特徴ブースト モジュールを考案し、拡張された履歴フレームからコンテキスト キューを抽出して、低いオーバーヘッドを維持しながらあいまいな特徴を洗練します。
いくつかのデータセットにわたる広範な実験により、CollaMamba が最先端の手法を上回り、計算オーバーヘッドと通信オーバーヘッドをそれぞれ最大 71.9% と 1/64 削減しながら、より高いモデル精度を達成できることが実証されました。
この研究は、共同知覚におけるマンバの可能性の探求の先駆者です。
ソースコードは公開される予定です。

要約(オリジナル)

By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba’s potential in collaborative perception. The source code will be made available.

arxiv情報

著者 Yang Li,Quan Yuan,Guiyang Luo,Xiaoyuan Fu,Xuanhan Zhu,Yujia Yang,Rui Pan,Jinglin Li
発行日 2024-09-26 15:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MA パーマリンク