要約
正確かつ堅牢な LiDAR 3D 物体検出は、自動運転における包括的なシーンの理解に不可欠です。
その重要性にもかかわらず、LiDAR の検出パフォーマンスは、特に長距離やオクルージョンの条件下では、点群データの固有の制約によって制限されます。
最近、時間的集約により、複数フレームの視点情報を融合し、オブジェクトの空間表現を豊かにすることで、検出精度が大幅に向上することが証明されました。
この研究では、新しい LiDAR 3D 物体検出フレームワーク、つまり LiSTM を導入し、フレーム間の動き予測情報による時空間特徴の学習を促進します。
私たちは、学習不可能な動き推定モデルから生成された動的事前分布を組み込むことで、LiDAR 検出器の時空間解釈能力を向上させることを目指しています。
具体的には、動作ガイド付き特徴集約 (MGFA) が提案されており、以前および将来の動作状態からの物体の軌跡を利用して、駆動シーケンスにわたる時空間相関をガウス ヒートマップにモデル化します。
このモーションベースのヒートマップは、時間的特徴の融合をガイドし、提案されたオブジェクトの特徴を強化します。
さらに、シーンおよびチャネルごとの特徴抽象化を通じて、過去のフレームと将来のフレーム間の相互作用を効果的に促進する二重相関重み付けモジュール (DCWM) を設計します。
最終的に、カスケード クロスアテンション ベースのデコーダを使用して 3D 予測を改良します。
Waymo と nuScenes データセットで実験を実施し、提案されたフレームワークが効果的な時空間特徴学習により優れた 3D 検出パフォーマンスを達成することを実証しました。
要約(オリジナル)
Accurate and robust LiDAR 3D object detection is essential for comprehensive scene understanding in autonomous driving. Despite its importance, LiDAR detection performance is limited by inherent constraints of point cloud data, particularly under conditions of extended distances and occlusions. Recently, temporal aggregation has been proven to significantly enhance detection accuracy by fusing multi-frame viewpoint information and enriching the spatial representation of objects. In this work, we introduce a novel LiDAR 3D object detection framework, namely LiSTM, to facilitate spatial-temporal feature learning with cross-frame motion forecasting information. We aim to improve the spatial-temporal interpretation capabilities of the LiDAR detector by incorporating a dynamic prior, generated from a non-learnable motion estimation model. Specifically, Motion-Guided Feature Aggregation (MGFA) is proposed to utilize the object trajectory from previous and future motion states to model spatial-temporal correlations into gaussian heatmap over a driving sequence. This motion-based heatmap then guides the temporal feature fusion, enriching the proposed object features. Moreover, we design a Dual Correlation Weighting Module (DCWM) that effectively facilitates the interaction between past and prospective frames through scene- and channel-wise feature abstraction. In the end, a cascade cross-attention-based decoder is employed to refine the 3D prediction. We have conducted experiments on the Waymo and nuScenes datasets to demonstrate that the proposed framework achieves superior 3D detection performance with effective spatial-temporal feature learning.
arxiv情報
| 著者 | Rui Yu,Runkai Zhao,Cong Nie,Heng Wang,HuaiCheng Yan,Meng Wang |
| 発行日 | 2024-09-06 16:29:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google