Perception Helps Planning: Facilitating Multi-Stage Lane-Level Integration via Double-Edge Structures

要約

自動運転を計画する場合、車線、交差点、交通規制、ダイナミック エージェントなどの重要な交通要素を考慮することが重要です。
ただし、これらは従来のエンドツーエンドの計画方法では見落とされることが多く、非効率性や交通規制の不遵守につながる可能性があります。
この作業では、これらの要素の認識を計画タスクに統合するよう努めます。
この目的を達成するために、レーンレベルの計画と知覚を調和させる新しいフレームワークである Perception Helps Planning (PHP) を提案します。
この統合により、計画が本質的に交通制約に合わせて調整されるため、安全で効率的な運転が促進されます。
具体的には、PHP は計画と認識の目的で車線の両方の端に焦点を当て、両方の車線端の 3D 位置と、車線交差点、車線方向、車線占有率、および計画の属性を考慮します。
アルゴリズム設計では、プロセスは、マルチカメラ画像をエンコードするトランスフォーマーから始まり、上記の特徴を抽出し、車線レベルの知覚結果を予測します。
次に、階層的特徴早期融合モジュールは、計画属性を予測するための特徴を改良します。
最後に、ダブルエッジ インタプリタは、車線レベルの認識と計画情報を統合するように特別に設計された後期融合プロセスを利用し、最終的に車両制御信号を生成します。
3 つの Carla ベンチマークの実験では、既存のアルゴリズムと比較して、運転スコアがそれぞれ 27.20%、33.47%、15.54% と大幅に向上し、システムが最大 22.57 FPS で動作する最先端のパフォーマンスを達成しました。

要約(オリジナル)

When planning for autonomous driving, it is crucial to consider essential traffic elements such as lanes, intersections, traffic regulations, and dynamic agents. However, they are often overlooked by the traditional end-to-end planning methods, likely leading to inefficiencies and non-compliance with traffic regulations. In this work, we endeavor to integrate the perception of these elements into the planning task. To this end, we propose Perception Helps Planning (PHP), a novel framework that reconciles lane-level planning with perception. This integration ensures that planning is inherently aligned with traffic constraints, thus facilitating safe and efficient driving. Specifically, PHP focuses on both edges of a lane for planning and perception purposes, taking into consideration the 3D positions of both lane edges and attributes for lane intersections, lane directions, lane occupancy, and planning. In the algorithmic design, the process begins with the transformer encoding multi-camera images to extract the above features and predicting lane-level perception results. Next, the hierarchical feature early fusion module refines the features for predicting planning attributes. Finally, the double-edge interpreter utilizes a late-fusion process specifically designed to integrate lane-level perception and planning information, culminating in the generation of vehicle control signals. Experiments on three Carla benchmarks show significant improvements in driving score of 27.20%, 33.47%, and 15.54% over existing algorithms, respectively, achieving the state-of-the-art performance, with the system operating up to 22.57 FPS.

arxiv情報

著者 Guoliang You,Xiaomeng Chu,Yifan Duan,Wenyu Zhang,Xingchen Li,Sha Zhang,Yao Li,Jianmin Ji,Yanyong Zhang
発行日 2024-07-16 12:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク