HeightLane: BEV Heightmap guided 3D Lane Detection

要約

単眼画像からの正確な 3D 車線検出には、深さの曖昧さと不完全な地面モデリングにより大きな課題が生じます。
地面をモデル化するこれまでの試みでは、自由度が限られた平面状の地面を仮定することが多かったので、勾配が変化する複雑な道路環境には適していませんでした。
私たちの研究では、複数の傾斜の仮定に基づいてアンカーを作成することにより、単眼画像から高さマップを予測する革新的な方法である HeightLane を導入しました。
このアプローチにより、地面を詳細かつ正確に表現できます。
HeightLane は、予測されたハイトマップと変形可能な注意ベースの空間特徴変換フレームワークを使用して、2D 画像特徴を 3D 鳥瞰図 (BEV) 特徴に効率的に変換し、空間理解と車線構造認識を強化します。
さらに、ハイトマップは BEV フィーチャの位置エンコードに使用され、その空間精度がさらに向上します。
この明示的なビュー変換により、正面からの認識と空間的に正確な BEV 表現との間のギャップが埋められ、検出パフォーマンスが大幅に向上します。
元の OpenLane データセットに必要なグラウンド トゥルース (GT) 高さマップが不足していることに対処するために、Waymo データセットを活用し、その LiDAR データを蓄積して、各シーンの走行可能エリアの高さマップを生成します。
GT ハイトマップは、単眼画像からハイトマップ抽出モジュールをトレーニングするために使用されます。
OpenLane 検証セットに関する広範な実験により、HeightLane が F スコアの点で最先端のパフォーマンスを達成していることが示され、現実世界のアプリケーションにおけるその可能性が強調されています。

要約(オリジナル)

Accurate 3D lane detection from monocular images presents significant challenges due to depth ambiguity and imperfect ground modeling. Previous attempts to model the ground have often used a planar ground assumption with limited degrees of freedom, making them unsuitable for complex road environments with varying slopes. Our study introduces HeightLane, an innovative method that predicts a height map from monocular images by creating anchors based on a multi-slope assumption. This approach provides a detailed and accurate representation of the ground. HeightLane employs the predicted heightmap along with a deformable attention-based spatial feature transform framework to efficiently convert 2D image features into 3D bird’s eye view (BEV) features, enhancing spatial understanding and lane structure recognition. Additionally, the heightmap is used for the positional encoding of BEV features, further improving their spatial accuracy. This explicit view transformation bridges the gap between front-view perceptions and spatially accurate BEV representations, significantly improving detection performance. To address the lack of the necessary ground truth (GT) height map in the original OpenLane dataset, we leverage the Waymo dataset and accumulate its LiDAR data to generate a height map for the drivable area of each scene. The GT heightmaps are used to train the heightmap extraction module from monocular images. Extensive experiments on the OpenLane validation set show that HeightLane achieves state-of-the-art performance in terms of F-score, highlighting its potential in real-world applications.

arxiv情報

著者 Chaesong Park,Eunbin Seo,Jongwoo Lim
発行日 2024-08-15 17:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク