HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

要約

ベクトル化された高精細 (HD) 地図の構築には、地図要素 (道路境界線、車線分離帯、横断歩道など) のカテゴリとポイント座標の予測が必要です。
最先端の方法は主に、正確な点座標を回帰するための点レベルの表現学習に基づいています。
ただし、このパイプラインには、要素レベルの情報の取得と要素レベルの障害の処理において制限があります。
要素の形状が間違っている、または要素間の絡み合い。
上記の問題に取り組むために、ポイントレベルと要素レベルの情報の両方を十分に学習して対話できる、HIMap という名前のシンプルで効果的な HybrId フレームワークを提案します。
具体的には、すべてのマップ要素を表す HIQuery と呼ばれるハイブリッド表現を導入し、要素のハイブリッド情報を対話的に抽出およびエンコードする点要素インタラクターを提案します。
ポイントの位置と要素の形状を HIQuery に入力します。
さらに、ポイントレベルと要素レベルの情報間の一貫性を強化するために、ポイント要素の一貫性制約を提示します。
最後に、出力された点要素統合 HIQuery は、マップ要素のクラス、点座標、およびマスクに直接変換できます。
私たちは広範な実験を実施し、nuScenes と Argoverse2 データセットの両方で以前の方法よりも一貫して優れたパフォーマンスを発揮します。
特に、私たちの方法は nuScenes データセットで $77.8$ mAP を達成し、以前の SOTA よりも少なくとも $8.3$ mAP はるかに優れています。

要約(オリジナル)

Vectorized High-Definition (HD) map construction requires predictions of the category and point coordinates of map elements (e.g. road boundary, lane divider, pedestrian crossing, etc.). State-of-the-art methods are mainly based on point-level representation learning for regressing accurate point coordinates. However, this pipeline has limitations in obtaining element-level information and handling element-level failures, e.g. erroneous element shape or entanglement between elements. To tackle the above issues, we propose a simple yet effective HybrId framework named HIMap to sufficiently learn and interact both point-level and element-level information. Concretely, we introduce a hybrid representation called HIQuery to represent all map elements, and propose a point-element interactor to interactively extract and encode the hybrid information of elements, e.g. point position and element shape, into the HIQuery. Additionally, we present a point-element consistency constraint to enhance the consistency between the point-level and element-level information. Finally, the output point-element integrated HIQuery can be directly converted into map elements’ class, point coordinates, and mask. We conduct extensive experiments and consistently outperform previous methods on both nuScenes and Argoverse2 datasets. Notably, our method achieves $77.8$ mAP on the nuScenes dataset, remarkably superior to previous SOTAs by $8.3$ mAP at least.

arxiv情報

著者 Yi Zhou,Hui Zhang,Jiaqian Yu,Yifan Yang,Sangil Jung,Seung-In Park,ByungIn Yoo
発行日 2024-03-26 15:40:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク