HoughLaneNet: Lane Detection with Deep Hough Transform and Dynamic Convolution

要約

車線検出のタスクは、その複雑さから自動運転の分野で大きな注目を集めています。
車線は狭く、分断されており、交通量が多くて見えにくいため、検出が困難になる場合があります。
ただし、車線は直線に似た幾何学的構造を持っていることが観察されており、この特性を利用すると車線検出結果が向上します。
この課題に対処するために、画像内のすべてのレーン特徴をハフ パラメーター空間に結合する階層型ディープ ハフ変換 (DHT) アプローチを提案します。
さらに、ポイント選択方法を改良し、ダイナミック コンボリューション モジュールを組み込んで、元の画像内のレーンを効果的に区別します。
当社のネットワーク アーキテクチャは、ResNet または Pyramid Vision Transformer のいずれかのバックボーン ネットワーク、マルチスケール特徴を抽出するネックとしての特徴ピラミッド ネットワーク、および各レーンを正確にセグメント化するための階層型 DHT ベースの特徴集約ヘッドで構成されています。
ハフ パラメーター空間のレーン特徴を利用することで、ネットワークは各レーンに対応する動的畳み込みカーネル パラメーターを学習し、動的畳み込みモジュールがレーン特徴を効果的に区別できるようにします。
その後、車線の特徴が特徴デコーダに入力され、車線の最終的な位置が予測されます。
私たちの提案したネットワーク構造は、私たちの方法が最先端の技術を上回る、または同等であることを示す広範な実験結果によって証明されているように、ひどく閉塞または磨耗した車線画像を検出する際のパフォーマンスが向上していることを示しています。

要約(オリジナル)

The task of lane detection has garnered considerable attention in the field of autonomous driving due to its complexity. Lanes can present difficulties for detection, as they can be narrow, fragmented, and often obscured by heavy traffic. However, it has been observed that the lanes have a geometrical structure that resembles a straight line, leading to improved lane detection results when utilizing this characteristic. To address this challenge, we propose a hierarchical Deep Hough Transform (DHT) approach that combines all lane features in an image into the Hough parameter space. Additionally, we refine the point selection method and incorporate a Dynamic Convolution Module to effectively differentiate between lanes in the original image. Our network architecture comprises a backbone network, either a ResNet or Pyramid Vision Transformer, a Feature Pyramid Network as the neck to extract multi-scale features, and a hierarchical DHT-based feature aggregation head to accurately segment each lane. By utilizing the lane features in the Hough parameter space, the network learns dynamic convolution kernel parameters corresponding to each lane, allowing the Dynamic Convolution Module to effectively differentiate between lane features. Subsequently, the lane features are fed into the feature decoder, which predicts the final position of the lane. Our proposed network structure demonstrates improved performance in detecting heavily occluded or worn lane images, as evidenced by our extensive experimental results, which show that our method outperforms or is on par with state-of-the-art techniques.

arxiv情報

著者 Jia-Qi Zhang,Hao-Bin Duan,Jun-Long Chen,Ariel Shamir,Miao Wang
発行日 2023-07-07 10:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク