Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection

要約

LIDARベースの3Dオブジェクト検出は、ライダーポイントの固有のスパース性のために大きな課題を提示します。
一般的なソリューションには、入力を高めるための長期的な時間LIDARデータが含まれます。
ただし、空間的情報を効率的に活用することで、未解決の問題のままです。
このホワイトペーパーでは、新しいセマンティックスズメバチの空間的融合(STフュージョン)メソッドを提案します。これは、オブジェクトの動きによって引き起こされる空間的不整合を緩和する新しい融合モジュールを導入し、提案された融合モジュールの容量を十分にロック解除するための特徴レベルのセマンティック監督を緩和します。
具体的には、ST融合は、空間凝集(SA)モジュールと時間的マージ(TM)モジュールで構成されています。
SAモジュールは、徐々に拡張された受容フィールドを備えた畳み込み層を使用して、ローカル領域のオブジェクト機能を集計して空間的不整列を緩和し、TMモジュールは、包括的なシーケンシャルなプレゼンテーションの注意メカニズムに基づいて前述のフレームからオブジェクト機能を動的に抽出します。
その上、セマンティック監督では、ポイントごとのセマンティックラベルを注入し、教師モデルをトレーニングするために使用し、提案されたオブジェクト対応損失によって監督された機能レベルで再構成ターゲットを提供するために、スパースライダーデータを豊かにするセマンティックインジェクション方法を提案します。
さまざまなLIDARベースの検出器に関する広範な実験は、私たちの提案の有効性と普遍性を示し、ヌスケンベンチマークに基づいてNDSで約2.8%の改善をもたらします。

要約(オリジナル)

LiDAR-based 3D object detection presents significant challenges due to the inherent sparsity of LiDAR points. A common solution involves long-term temporal LiDAR data to densify the inputs. However, efficiently leveraging spatial-temporal information remains an open problem. In this paper, we propose a novel Semantic-Supervised Spatial-Temporal Fusion (ST-Fusion) method, which introduces a novel fusion module to relieve the spatial misalignment caused by the object motion over time and a feature-level semantic supervision to sufficiently unlock the capacity of the proposed fusion module. Specifically, the ST-Fusion consists of a Spatial Aggregation (SA) module and a Temporal Merging (TM) module. The SA module employs a convolutional layer with progressively expanding receptive fields to aggregate the object features from the local regions to alleviate the spatial misalignment, the TM module dynamically extracts object features from the preceding frames based on the attention mechanism for a comprehensive sequential presentation. Besides, in the semantic supervision, we propose a Semantic Injection method to enrich the sparse LiDAR data via injecting the point-wise semantic labels, using it for training a teacher model and providing a reconstruction target at the feature level supervised by the proposed object-aware loss. Extensive experiments on various LiDAR-based detectors demonstrate the effectiveness and universality of our proposal, yielding an improvement of approximately +2.8% in NDS based on the nuScenes benchmark.

arxiv情報

著者 Chaoqun Wang,Xiaobin Hong,Wenzhong Li,Ruimao Zhang
発行日 2025-03-13 17:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク