要約
自動運転においては、単眼カメラを使用した 3D 車線検出は、下流のさまざまな計画および制御タスクにとって重要なタスクです。
最近の CNN および Transformer のアプローチでは、通常、モデル設計に 2 段階のスキームが適用されます。
最初の段階では、画像特徴を正面画像から鳥瞰図 (BEV) 表現に変換します。
その後、サブネットワークが BEV 特徴マップを処理して 3D 検出結果を生成します。
ただし、これらのアプローチは、透視図から BEV 表現への困難な画像特徴変換モジュールに大きく依存しています。
私たちの研究では、CurveFormer++ を紹介します。これは、画像フィーチャ ビュー変換モジュールを必要とせず、透視画像フィーチャから 3D レーン検出結果を直接推論する 1 段階の Transformer ベースのメソッドです。
具体的には、私たちのアプローチは 3D 検出タスクを曲線伝播問題としてモデル化し、各レーンは動的で順序付けられたアンカー ポイント セットを備えた曲線クエリによって表されます。
Transformer デコーダーを採用することにより、モデルは 3D 車線検出結果を繰り返し改良できます。
カーブ クロス アテンション モジュールが Transformer デコーダに導入され、画像の特徴と車線のカーブ クエリ間の類似性が計算されます。
さまざまな車線の長さを処理するために、コンテキスト サンプリングとアンカー ポイント制限技術を採用して、曲線クエリに対してより関連性の高い画像特徴を計算します。
さらに、選択された有益なスパース曲線クエリとそれらに対応するアンカー ポイント セットを組み込んだ時間融合モジュールを適用して、過去の車線情報を活用します。
実験では、公開されている 2 つの現実世界のデータセットを使用して、3D 車線検出タスクのアプローチを評価します。
結果は、私たちの方法が CNN ベースの方法と Transformer ベースの方法の両方と比較して優れたパフォーマンスを提供することを示しています。
また、アブレーション研究も実施して、アプローチにおける各コンポーネントの影響を分析します。
要約(オリジナル)
In autonomous driving, 3D lane detection using monocular cameras is an important task for various downstream planning and control tasks. Recent CNN and Transformer approaches usually apply a two-stage scheme in the model design. The first stage transforms the image feature from a front image into a bird’s-eye-view (BEV) representation. Subsequently, a sub-network processes the BEV feature map to generate the 3D detection results. However, these approaches heavily rely on a challenging image feature transformation module from a perspective view to a BEV representation. In our work, we present CurveFormer++, a single-stage Transformer-based method that does not require the image feature view transform module and directly infers 3D lane detection results from the perspective image features. Specifically, our approach models the 3D detection task as a curve propagation problem, where each lane is represented by a curve query with a dynamic and ordered anchor point set. By employing a Transformer decoder, the model can iteratively refine the 3D lane detection results. A curve cross-attention module is introduced in the Transformer decoder to calculate similarities between image features and curve queries of lanes. To handle varying lane lengths, we employ context sampling and anchor point restriction techniques to compute more relevant image features for a curve query. Furthermore, we apply a temporal fusion module that incorporates selected informative sparse curve queries and their corresponding anchor point sets to leverage historical lane information. In the experiments, we evaluate our approach for the 3D lane detection task on two publicly available real-world datasets. The results demonstrate that our method provides outstanding performance compared with both CNN and Transformer based methods. We also conduct ablation studies to analyze the impact of each component in our approach.
arxiv情報
著者 | Yifeng Bai,Zhirong Chen,Pengpeng Liang,Erkang Cheng |
発行日 | 2024-02-09 14:13:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google