Trajectory Planning using Reinforcement Learning for Interactive Overtaking Maneuvers in Autonomous Racing Scenarios

要約

自律走行レースのための従来の軌道計画アプローチは、対向車両の予測とその後の自車両の軌道計画の逐次的な実行に基づいています。
対向車両が自車両に反応しない場合、それらを正確に予測できます。
ただし、車両間に相互作用がある場合、予測は有効性を失います。
高度なインタラクションの場合、固定された予測にのみ反応する計画アプローチではなく、対向車両とのインタラクションを組み込んだ軌道計画アプローチが必要です。
このペーパーでは、高度にインタラクティブなブロッキング シナリオ内で広く使用されている従来のサンプリング ベースのアプローチの限界を示します。
攻撃的でないブロック動作では高い成功率が達成されるが、より重要な相互作用では衝突率が増加することを示します。
さらに、予測を必要とせずに対向車両との相互作用を明示的に利用する、レース用の新しい強化学習 (RL) ベースの軌道計画アプローチを提案します。
従来のアプローチとは対照的に、RL ベースのアプローチは、攻撃的なブロック動作であっても高い成功率を達成します。
さらに、RL ベースのアプローチによって生成された軌道が実行不可能な場合に介入する新しい安全層 (SL) を提案します。
その場合、SL は最適ではないが実行可能な軌道を生成し、有効な解決策が見つからないことによるシナリオの終了を回避します。

要約(オリジナル)

Conventional trajectory planning approaches for autonomous racing are based on the sequential execution of prediction of the opposing vehicles and subsequent trajectory planning for the ego vehicle. If the opposing vehicles do not react to the ego vehicle, they can be predicted accurately. However, if there is interaction between the vehicles, the prediction loses its validity. For high interaction, instead of a planning approach that reacts exclusively to the fixed prediction, a trajectory planning approach is required that incorporates the interaction with the opposing vehicles. This paper demonstrates the limitations of a widely used conventional sampling-based approach within a highly interactive blocking scenario. We show that high success rates are achieved for less aggressive blocking behavior but that the collision rate increases with more significant interaction. We further propose a novel Reinforcement Learning (RL)-based trajectory planning approach for racing that explicitly exploits the interaction with the opposing vehicle without requiring a prediction. In contrast to the conventional approach, the RL-based approach achieves high success rates even for aggressive blocking behavior. Furthermore, we propose a novel safety layer (SL) that intervenes when the trajectory generated by the RL-based approach is infeasible. In that event, the SL generates a sub-optimal but feasible trajectory, avoiding termination of the scenario due to a not found valid solution.

arxiv情報

著者 Levent Ögretmen,Mo Chen,Phillip Pitschi,Boris Lohmann
発行日 2024-04-16 15:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク