Reward-Driven Automated Curriculum Learning for Interaction-Aware Self-Driving at Unsignalized Intersections

要約

この研究では、周囲の車両 (SV) に関連する不確実性を考慮した、信号のない交差点でのインタラクションを意識した自動運転のための、報酬駆動型の自動カリキュラム強化学習アプローチを紹介します。
これらの不確実性には、SV の運転意図の不確実性だけでなく、SV の数も含まれます。
この問題に対処するために、カリキュラム セットは、徐々に増加する SV の数に対応できるように特別に設計されています。
自動化されたカリキュラム選択メカニズムを実装することにより、重要度の重みがさまざまなカリキュラムにわたって合理的に割り当てられるため、サンプル効率とトレーニング結果の向上が促進されます。
さらに、報酬関数は、エージェントを効果的なポリシー探索に導くように細心の注意を払って設計されています。
したがって、提案されたフレームワークは、タスクの難易度を徐々に高める自動カリキュラム学習技術を採用することで、信号のない交差点での上記の不確実性に積極的に対処することができ、これによりSVとの効果的な対話を通じて安全な自動運転が保証されます。
比較実験は $Highway\_Env$ で行われ、その結果は、私たちのアプローチが最高のタスク成功率を達成し、カリキュラム選択モジュールの初期化パラメータに対する強力なロバスト性を達成し、信号のない交差点でのさまざまな状況構成に対して優れた適応性を示すことを示しています。
さらに、高忠実度CARLAシミュレータを用いて提案手法の有効性を検証する。

要約(オリジナル)

In this work, we present a reward-driven automated curriculum reinforcement learning approach for interaction-aware self-driving at unsignalized intersections, taking into account the uncertainties associated with surrounding vehicles (SVs). These uncertainties encompass the uncertainty of SVs’ driving intention and also the quantity of SVs. To deal with this problem, the curriculum set is specifically designed to accommodate a progressively increasing number of SVs. By implementing an automated curriculum selection mechanism, the importance weights are rationally allocated across various curricula, thereby facilitating improved sample efficiency and training outcomes. Furthermore, the reward function is meticulously designed to guide the agent towards effective policy exploration. Thus the proposed framework could proactively address the above uncertainties at unsignalized intersections by employing the automated curriculum learning technique that progressively increases task difficulty, and this ensures safe self-driving through effective interaction with SVs. Comparative experiments are conducted in $Highway\_Env$, and the results indicate that our approach achieves the highest task success rate, attains strong robustness to initialization parameters of the curriculum selection module, and exhibits superior adaptability to diverse situational configurations at unsignalized intersections. Furthermore, the effectiveness of the proposed method is validated using the high-fidelity CARLA simulator.

arxiv情報

著者 Zengqi Peng,Xiao Zhou,Lei Zheng,Yubin Wang,Jun Ma
発行日 2024-03-20 15:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク