LION: Linear Group RNN for 3D Object Detection in Point Clouds

要約

3D オブジェクト検出などの大規模な 3D 点群認識タスクにおけるトランスフォーマーの利点は、長距離関係をモデル化する際の二次計算コストによって制限されます。
対照的に、線形 RNN は計算の複雑さが低く、長距離のモデリングに適しています。
この目標に向けて、正確な 3D オブジェクト検出のために、LInear grOup RNN (つまり、グループ化された特徴に対して線形 RNN を実行する) に基づいて構築された、LION と呼ばれるシンプルで効果的なウィンドウベースのフレームワークを提案します。
重要な特性は、トランスフォーマーベースの方法よりもはるかに大きなグループで十分な機能の相互作用を可能にすることです。
ただし、空間モデリングの処理には限界があるため、線形グループ RNN を高度にまばらな点群での 3D オブジェクト検出に効果的に適用することは簡単ではありません。
この問題に取り組むには、ボクセル特徴のスキャン次数をやみくもに増やすのではなく、単純に 3D 空間特徴記述子を導入し、それを線形グループ RNN 演算子に統合して空間特徴を強化します。
高度にまばらな点群における課題にさらに対処するために、自己回帰モデルの自然な特性として線形群 RNN のおかげで前景特徴を高密度化する 3D ボクセル生成戦略を提案します。
広範な実験により、提案されたコンポーネントの有効性と、Mamba、RWKV、RetNet を含むさまざまな線形群 RNN 演算子に対する LION の一般化が検証されます。
さらに、当社の LION-Mamba が Waymo、nuScenes、Argoverse V2、および ONCE データセットで最先端の技術を実現していることも言及する価値があります。
最後に重要なことですが、私たちの手法は、線形 RNN ベースのフレームワークを簡単に体験できるよう、小さいながらも人気のある KITTI データセット上でさまざまな高度な線形 RNN 演算子 (RetNet、RWKV、Mamba、xLSTM、TTT など) をサポートしています。

要約(オリジナル)

The benefit of transformers in large-scale 3D point cloud perception tasks, such as 3D object detection, is limited by their quadratic computation cost when modeling long-range relationships. In contrast, linear RNNs have low computational complexity and are suitable for long-range modeling. Toward this goal, we propose a simple and effective window-based framework built on LInear grOup RNN (i.e., perform linear RNN for grouped features) for accurate 3D object detection, called LION. The key property is to allow sufficient feature interaction in a much larger group than transformer-based methods. However, effectively applying linear group RNN to 3D object detection in highly sparse point clouds is not trivial due to its limitation in handling spatial modeling. To tackle this problem, we simply introduce a 3D spatial feature descriptor and integrate it into the linear group RNN operators to enhance their spatial features rather than blindly increasing the number of scanning orders for voxel features. To further address the challenge in highly sparse point clouds, we propose a 3D voxel generation strategy to densify foreground features thanks to linear group RNN as a natural property of auto-regressive models. Extensive experiments verify the effectiveness of the proposed components and the generalization of our LION on different linear group RNN operators including Mamba, RWKV, and RetNet. Furthermore, it is worth mentioning that our LION-Mamba achieves state-of-the-art on Waymo, nuScenes, Argoverse V2, and ONCE dataset. Last but not least, our method supports kinds of advanced linear RNN operators (e.g., RetNet, RWKV, Mamba, xLSTM and TTT) on small but popular KITTI dataset for a quick experience with our linear RNN-based framework.

arxiv情報

著者 Zhe Liu,Jinghua Hou,Xinyu Wang,Xiaoqing Ye,Jingdong Wang,Hengshuang Zhao,Xiang Bai
発行日 2024-07-25 17:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク