TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping

要約

バードアイビュー(BEV)知覚テクノロジーは、環境認識、ナビゲーション、意思決定のためのトップダウン2Dマップを生成するため、自律運転に不可欠です。
それにもかかわらず、視覚マップ生成に焦点を当てた現在のBEVマップ生成研究の大部分は、深さを認識していない推論機能を欠いています。
それらは、閉塞の管理と複雑な環境の取り扱いにおいて限られた有効性を示し、有害な気象条件や低光のシナリオの下で知覚パフォーマンスが顕著に低下します。
したがって、このホワイトペーパーでは、TS-CGNETを提案します。これは、中心線誘導拡散と時間的空間融合を活用します。
事前知識に基づいたこの視覚フレームワークは、BEVマップを構築するための既存のネットワークに統合するために設計されています。
具体的には、このフレームワークは3つの部分に分離されています。ローカルマッピングシステムには、純粋に視覚的な情報を使用したセマンティックマップの初期生成が含まれます。
時間空間アライナーモジュール(TSAM)は、変換マトリックスを適用することにより、履歴情報をマッピング生成に統合します。
Centerline-Guided Diffusionモデル(CGDM)は、拡散モデルに基づく予測モジュールです。
CGDMは、セマンティックセグメンテーションの再構築を強化するために、空間的資格メカニズムを通じて中心線情報を組み込みます。
私たちは、公共のヌスセンとさまざまな腐敗の下での堅牢性ベンチマークに関する方法によって、BEVセマンティックセグメンテーションマップを構築します。
BEV HDマッピングのタスクでは、60x30m、120x60m、および240x60mの知覚範囲で1.90%、1.73%、2.87%を改善します。
TS-CGNETは、BEVセマンティックマッピングのタスクで、知覚された範囲100x100mの1.92%の改善を達成します。
さらに、TS-CGNETは、さまざまな気象条件と240x60mの知覚範囲でのセンサー干渉の下で、検出精度が2.92%の平均改善を達成します。
ソースコードは、https://github.com/krabs-h/ts-cgnetで公開されます。

要約(オリジナル)

Bird’s Eye View (BEV) perception technology is crucial for autonomous driving, as it generates top-down 2D maps for environment perception, navigation, and decision-making. Nevertheless, the majority of current BEV map generation studies focusing on visual map generation lack depth-aware reasoning capabilities. They exhibit limited efficacy in managing occlusions and handling complex environments, with a notable decline in perceptual performance under adverse weather conditions or low-light scenarios. Therefore, this paper proposes TS-CGNet, which leverages Temporal-Spatial fusion with Centerline-Guided diffusion. This visual framework, grounded in prior knowledge, is designed for integration into any existing network for building BEV maps. Specifically, this framework is decoupled into three parts: Local mapping system involves the initial generation of semantic maps using purely visual information; The Temporal-Spatial Aligner Module (TSAM) integrates historical information into mapping generation by applying transformation matrices; The Centerline-Guided Diffusion Model (CGDM) is a prediction module based on the diffusion model. CGDM incorporates centerline information through spatial-attention mechanisms to enhance semantic segmentation reconstruction. We construct BEV semantic segmentation maps by our methods on the public nuScenes and the robustness benchmarks under various corruptions. Our method improves 1.90%, 1.73%, and 2.87% for perceived ranges of 60x30m, 120x60m, and 240x60m in the task of BEV HD mapping. TS-CGNet attains an improvement of 1.92% for perceived ranges of 100x100m in the task of BEV semantic mapping. Moreover, TS-CGNet achieves an average improvement of 2.92% in detection accuracy under varying weather conditions and sensor interferences in the perception range of 240x60m. The source code will be publicly available at https://github.com/krabs-H/TS-CGNet.

arxiv情報

著者 Xinying Hong,Siyu Li,Kang Zeng,Hao Shi,Bomin Peng,Kailun Yang,Zhiyong Li
発行日 2025-03-04 13:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク