要約
自律運転の意思決定のためのほとんどの強化学習(RL)は、安全性と他の目標のトレードオフのバランスをとるのを難しくしているため、安全性をコストの代わりに報酬として考慮します。
人間のリスクの好みもめったに組み込まれておらず、訓練されたポリシーはユーザーにとって保守的または攻撃的である可能性があります。
この目的のために、この研究では、自律的な合併のための人間に並べられた安全なRLアプローチを提案します。この研究では、高レベルの決定問題がユーザーのリスク選好を安全制約に組み込み、その後モデル予測制御(MPC)ベースの低レベル制御を組み込んだ制約付きマルコフ決定プロセス(CMDP)として定式化されます。
RLポリシーの安全レベルは、ファジー制御方法を使用したリスクの好みとトラフィック密度に基づいて、CMDPの制約のコスト制限を計算することにより調整できます。
安全でないまたは無効なアクションをフィルタリングするために、MPCメソッドを使用してRLアクションを事前に実行し、周囲のエージェントと衝突チェックを実行するアクションシールドメカニズムを設計します。
また、RLの安全性とサンプル効率を高める上でのシールドメカニズムの有効性を検証するための理論的証拠を提供します。
交通密度の複数のレベルでのシミュレーション実験では、私たちの方法が交通効率を犠牲にすることなく安全違反を大幅に減らすことができることが示されています。
さらに、CMDPにおけるリスク優先順位のある制約とアクションシールドの使用により、最終ポリシーの安全レベルを調整するだけでなく、トレーニング段階での安全違反を減らすこともできます。
要約(オリジナル)
Most reinforcement learning (RL) approaches for the decision-making of autonomous driving consider safety as a reward instead of a cost, which makes it hard to balance the tradeoff between safety and other objectives. Human risk preference has also rarely been incorporated, and the trained policy might be either conservative or aggressive for users. To this end, this study proposes a human-aligned safe RL approach for autonomous merging, in which the high-level decision problem is formulated as a constrained Markov decision process (CMDP) that incorporates users’ risk preference into the safety constraints, followed by a model predictive control (MPC)-based low-level control. The safety level of RL policy can be adjusted by computing cost limits of CMDP’s constraints based on risk preferences and traffic density using a fuzzy control method. To filter out unsafe or invalid actions, we design an action shielding mechanism that pre-executes RL actions using an MPC method and performs collision checks with surrounding agents. We also provide theoretical proof to validate the effectiveness of the shielding mechanism in enhancing RL’s safety and sample efficiency. Simulation experiments in multiple levels of traffic densities show that our method can significantly reduce safety violations without sacrificing traffic efficiency. Furthermore, due to the use of risk preference-aware constraints in CMDP and action shielding, we can not only adjust the safety level of the final policy but also reduce safety violations during the training stage, proving a promising solution for online learning in real-world environments.
arxiv情報
著者 | Yang Li,Shijie Yuan,Yuan Chang,Xiaolong Chen,Qisong Yang,Zhiyuan Yang,Hongmao Qin |
発行日 | 2025-03-04 13:49:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google