Risk-Aware Reinforcement Learning for Autonomous Driving: Improving Safety When Driving through Intersection

要約

自律運転に補強学習を適用することで、広範囲にわたる注目が集まっています。
ただし、古典的な強化学習方法は、予想される報酬を最大化することによりポリシーを最適化しますが、十分な安全性に関する考慮事項がなく、多くの場合、エージェントを危険な状況に置きます。
このペーパーでは、交差点を越えた​​ときの安全性能を向上させるための自律運転のためのリスク認識強化学習アプローチを提案します。
安全な批評家は、俳優を更新するために報酬批評家と協力して運転リスクを評価し、仕事をするために構築されています。
これに基づいて、ラグランジュ弛緩法と周期的勾配反復を組み合わせて、アクションを実行可能な安全な領域に投影します。
さらに、マルチホップとマルチレイヤーの知覚(MLP)混合注意メカニズム(MMAM)がアクター批判ネットワークに組み込まれており、ポリシーが動的トラフィ​​ックに適応し、順列感度の課題を克服できるようにします。
これにより、ポリシーは、通過する機会の特定を強化しながら、周囲の潜在的なリスクにより効果的に焦点を合わせます。
シミュレーションテストは、署名されていない交差点でさまざまなタスクで実施されます。
結果は、提案されたアプローチが衝突率を効果的に削減し、ベースラインアルゴリズムと比較して交差効率を向上させることを示しています。
さらに、アブレーション実験は、リスク認識とMMAMをRLに組み込むことの利点を示しています。

要約(オリジナル)

Applying reinforcement learning to autonomous driving has garnered widespread attention. However, classical reinforcement learning methods optimize policies by maximizing expected rewards but lack sufficient safety considerations, often putting agents in hazardous situations. This paper proposes a risk-aware reinforcement learning approach for autonomous driving to improve the safety performance when crossing the intersection. Safe critics are constructed to evaluate driving risk and work in conjunction with the reward critic to update the actor. Based on this, a Lagrangian relaxation method and cyclic gradient iteration are combined to project actions into a feasible safe region. Furthermore, a Multi-hop and Multi-layer perception (MLP) mixed Attention Mechanism (MMAM) is incorporated into the actor-critic network, enabling the policy to adapt to dynamic traffic and overcome permutation sensitivity challenges. This allows the policy to focus more effectively on surrounding potential risks while enhancing the identification of passing opportunities. Simulation tests are conducted on different tasks at unsignalized intersections. The results show that the proposed approach effectively reduces collision rates and improves crossing efficiency in comparison to baseline algorithms. Additionally, our ablation experiments demonstrate the benefits of incorporating risk-awareness and MMAM into RL.

arxiv情報

著者 Bo Leng,Ran Yu,Wei Han,Lu Xiong,Zhuoren Li,Hailong Huang
発行日 2025-03-27 11:02:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク