この論文では、従来の最先端の方法と同等の位置特定精度を達成するエンドツーエンドの位置特定ネットワークである EgoVM を紹介しますが、重いポイントベースのマップの代わりに軽量のベクトル化マップを使用します。
まず、オンラインの多視点画像と LiDAR 点群から BEV の特徴を抽出します。
次に、一連の学習可能なセマンティック エンベディングを使用してマップ要素のセマンティック タイプをエンコードし、セマンティック セグメンテーションでそれらを監視して、その地物表現を BEV 地物と一致させます。
その後、学習可能なセマンティック埋め込みとマップ要素の座標で構成されるマップ クエリをトランスフォーマー デコーダーに入力して、BEV 特徴とのクロスモダリティ マッチングを実行します。
最後に、堅牢なヒストグラム ベースのポーズ ソルバーを採用し、候補ポーズを徹底的に検索することで最適なポーズを推定します。
nuScenes データセットと新しく収集されたデータセットの両方を使用して、手法の有効性を包括的に検証します。
Accurate and reliable ego-localization is critical for autonomous driving. In this paper, we present EgoVM, an end-to-end localization network that achieves comparable localization accuracy to prior state-of-the-art methods, but uses lightweight vectorized maps instead of heavy point-based maps. To begin with, we extract BEV features from online multi-view images and LiDAR point cloud. Then, we employ a set of learnable semantic embeddings to encode the semantic types of map elements and supervise them with semantic segmentation, to make their feature representation consistent with BEV features. After that, we feed map queries, composed of learnable semantic embeddings and coordinates of map elements, into a transformer decoder to perform cross-modality matching with BEV features. Finally, we adopt a robust histogram-based pose solver to estimate the optimal pose by searching exhaustively over candidate poses. We comprehensively validate the effectiveness of our method using both the nuScenes dataset and a newly collected dataset. The experimental results show that our method achieves centimeter-level localization accuracy, and outperforms existing methods using vectorized maps by a large margin. Furthermore, our model has been extensively tested in a large fleet of autonomous vehicles under various challenging urban scenes.
