要約
時間情報は、Bird’s-Eye-View (BEV) の運転シーンの理解において極めて重要な役割を果たし、視覚情報の希薄性を軽減することができます。
ただし、無差別時間融合法では、ベクトル化された高精細 (HD) マップを構築するときに、特徴の冗長性という障壁が生じます。
この論文では、時間的インスタンスの一貫性と時間的マップの一貫性学習に焦点を当てて、ベクトル化された HD マップの時間的融合を再検討します。
単一フレーム マップでのインスタンスの表現を改善するために、新しいメソッド DTCLMapper を導入します。
このアプローチでは、インスタンスの埋め込みとジオメトリ マップを組み合わせたデュアルストリームの時間的整合性学習モジュールを使用します。
インスタンス埋め込みコンポーネントでは、私たちのアプローチは時間的インスタンス整合性学習 (ICL) を統合し、ベクトル ポイントとポイントから集約されたインスタンスの特徴から一貫性を確保します。
ベクトル化されたポイント事前選択モジュールを使用して、各インスタンスからのベクトル ポイントの回帰効率が向上します。
次に、ベクトル化されたポイント事前選択モジュールから取得された集約されたインスタンスの特徴は、位置と意味情報に基づいて正と負のサンプルが選択される時間的一貫性を実現するために対照学習に基づいています。
ジオメトリ マッピング コンポーネントには、自己教師あり学習で設計されたマップ整合性学習 (MCL) が導入されています。
MCL は、インスタンスのグローバルな位置と分布の制約に焦点を当てることで、一貫した学習アプローチの一般化機能を強化します。
広く知られたベンチマークに関する広範な実験により、提案された DTCLMapper がベクトル化マッピング タスクにおいて最先端のパフォーマンスを達成し、nuScenes および Argoverse データセットでそれぞれ 61.9% および 65.1% の mAP スコアに達することが示されました。
ソース コードは https://github.com/lynn-yu/DTCLMapper で入手できます。
要約(オリジナル)
Temporal information plays a pivotal role in Bird’s-Eye-View (BEV) driving scene understanding, which can alleviate the visual information sparsity. However, the indiscriminate temporal fusion method will cause the barrier of feature redundancy when constructing vectorized High-Definition (HD) maps. In this paper, we revisit the temporal fusion of vectorized HD maps, focusing on temporal instance consistency and temporal map consistency learning. To improve the representation of instances in single-frame maps, we introduce a novel method, DTCLMapper. This approach uses a dual-stream temporal consistency learning module that combines instance embedding with geometry maps. In the instance embedding component, our approach integrates temporal Instance Consistency Learning (ICL), ensuring consistency from vector points and instance features aggregated from points. A vectorized points pre-selection module is employed to enhance the regression efficiency of vector points from each instance. Then aggregated instance features obtained from the vectorized points preselection module are grounded in contrastive learning to realize temporal consistency, where positive and negative samples are selected based on position and semantic information. The geometry mapping component introduces Map Consistency Learning (MCL) designed with self-supervised learning. The MCL enhances the generalization capability of our consistent learning approach by concentrating on the global location and distribution constraints of the instances. Extensive experiments on well-recognized benchmarks indicate that the proposed DTCLMapper achieves state-of-the-art performance in vectorized mapping tasks, reaching 61.9% and 65.1% mAP scores on the nuScenes and Argoverse datasets, respectively. The source code is available at https://github.com/lynn-yu/DTCLMapper.
arxiv情報
著者 | Siyu Li,Jiacheng Lin,Hao Shi,Jiaming Zhang,Song Wang,You Yao,Zhiyong Li,Kailun Yang |
発行日 | 2024-08-25 11:27:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google