CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries and Attention

要約

3D 車線検出は、自動運転システムの不可欠な部分です。
以前の CNN および Transformer ベースの方法では、通常、最初に正面図の画像から鳥瞰図 (BEV) 特徴マップを生成し、次に BEV 特徴マップを含むサブネットワークを入力として使用して 3D レーンを予測します。
このようなアプローチには、BEV と正面図の間の明示的なビュー変換が必要であり、それ自体が依然として困難な問題です。
このホワイトペーパーでは、3Dレーンパラメーターを直接計算し、困難なビュー変換ステップを回避できる単一ステージのTransformerベースの方法であるCurveFormerを提案します。
具体的には、曲線クエリを使用して、3D 車線検出を曲線伝搬問題として定式化します。
3D レーン クエリは、動的で順序付けられたアンカー ポイント セットによって表されます。
このように、Transformer デコーダーの曲線表現を使用したクエリは、3D レーン検出結果を繰り返し改良します。
さらに、曲線クエリと画像特徴の間の類似性を計算するために、曲線相互注意モジュールが導入されています。
さらに、3D 車線検出のパフォーマンスをさらに向上させるために、曲線クエリのより多くの相対的な画像特徴をキャプチャできるコンテキスト サンプリング モジュールが提供されます。
合成データセットと現実世界のデータセットの両方で 3D 車線検出の方法を評価し、実験結果は、最先端のアプローチと比較して、この方法が有望なパフォーマンスを達成することを示しています。
各コンポーネントの有効性は、アブレーション研究によっても検証されています。

要約(オリジナル)

3D lane detection is an integral part of autonomous driving systems. Previous CNN and Transformer-based methods usually first generate a bird’s-eye-view (BEV) feature map from the front view image, and then use a sub-network with BEV feature map as input to predict 3D lanes. Such approaches require an explicit view transformation between BEV and front view, which itself is still a challenging problem. In this paper, we propose CurveFormer, a single-stage Transformer-based method that directly calculates 3D lane parameters and can circumvent the difficult view transformation step. Specifically, we formulate 3D lane detection as a curve propagation problem by using curve queries. A 3D lane query is represented by a dynamic and ordered anchor point set. In this way, queries with curve representation in Transformer decoder iteratively refine the 3D lane detection results. Moreover, a curve cross-attention module is introduced to compute the similarities between curve queries and image features. Additionally, a context sampling module that can capture more relative image features of a curve query is provided to further boost the 3D lane detection performance. We evaluate our method for 3D lane detection on both synthetic and real-world datasets, and the experimental results show that our method achieves promising performance compared with the state-of-the-art approaches. The effectiveness of each component is validated via ablation studies as well.

arxiv情報

著者 Yifeng Bai,Zhirong Chen,Zhangjie Fu,Lang Peng,Pengpeng Liang,Erkang Cheng
発行日 2022-09-16 14:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク