Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

要約

Transformers に入力する前に 3D ボクセルをシリアル化して複数のシーケンスにグループ化するシリアル化ベースの方法は、3D オブジェクト検出での有効性を実証しています。
ただし、3D ボクセルを 1D シーケンスにシリアル化すると、必然的にボクセルの空間的近接性が犠牲になります。
このような問題は、フィーチャ サイズに応じた Transformer の 2 次複雑さのため、既存のシリアル化ベースの方法でグループ サイズを拡大することで対処するのは困難です。
状態空間モデル (SSM) の最近の進歩に触発されて、ボクセル Mamba と呼ばれるボクセル SSM を紹介します。これは、ボクセルの空間全体を単一のシーケンスにシリアル化するグループフリー戦略を採用しています。
SSM の線形的な複雑さにより、グループフリーの設計が促進され、ボクセルの空間的近接性の損失が軽減されます。
空間的近接性をさらに強化するために、階層構造を確立するデュアルスケール SSM ブロックを提案します。これにより、1D シリアル化曲線でのより大きな受容野と 3D 空間でのより完全な局所領域が可能になります。
さらに、位置エンコーディングによってグループフリーフレームワークの下でウィンドウ分割を暗黙的に適用し、ボクセルの位置情報をエンコーディングすることで空間的近接性をさらに強化します。
Waymo Open Dataset と nuScenes データセットでの実験では、Voxel Mamba が最先端の手法よりも高い精度を達成するだけでなく、計算効率においても大きな利点があることが示されました。

要約(オリジナル)

Serialization-based methods, which serialize the 3D voxels and group them into multiple sequences before inputting to Transformers, have demonstrated their effectiveness in 3D object detection. However, serializing 3D voxels into 1D sequences will inevitably sacrifice the voxel spatial proximity. Such an issue is hard to be addressed by enlarging the group size with existing serialization-based methods due to the quadratic complexity of Transformers with feature sizes. Inspired by the recent advances of state space models (SSMs), we present a Voxel SSM, termed as Voxel Mamba, which employs a group-free strategy to serialize the whole space of voxels into a single sequence. The linear complexity of SSMs encourages our group-free design, alleviating the loss of spatial proximity of voxels. To further enhance the spatial proximity, we propose a Dual-scale SSM Block to establish a hierarchical structure, enabling a larger receptive field in the 1D serialization curve, as well as more complete local regions in 3D space. Moreover, we implicitly apply window partition under the group-free framework by positional encoding, which further enhances spatial proximity by encoding voxel positional information. Our experiments on Waymo Open Dataset and nuScenes dataset show that Voxel Mamba not only achieves higher accuracy than state-of-the-art methods, but also demonstrates significant advantages in computational efficiency.

arxiv情報

著者 Guowen Zhang,Lue Fan,Chenhang He,Zhen Lei,Zhaoxiang Zhang,Lei Zhang
発行日 2024-06-18 17:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク