要約
強化学習 (RL) は、自動運転における動作計画への効果的なアプローチであり、環境との相互作用データを使用して最適な運転ポリシーを自動的に学習できます。
それにもかかわらず、RL エージェントのパフォーマンスに重要な報酬関数を決定するのは困難です。
従来の研究は主に安全な運転状態を表彰することに焦点を当てていましたが、車両の危険な運転行動に対する認識は組み込まれていませんでした。
この論文では、リスクを意識した報酬形成を使用して、自動運転における RL エージェントのトレーニングとテストのパフォーマンスを活用する方法を調査します。
実際の一般的な自動運転の安全仕様を規定する必須要件に基づいて、探索を奨励し、危険な運転行動を罰する追加の再形成された報酬条件を提案します。
OpenAI Gym でのシミュレーション研究では、さまざまな RL エージェントにとってリスクを意識した報酬形成の利点が示されています。
また、近接ポリシー最適化 (PPO) が、リスクを意識した報酬形成に有効な最適な RL 手法である可能性が高いことも指摘します。
要約(オリジナル)
Reinforcement learning (RL) is an effective approach to motion planning in autonomous driving, where an optimal driving policy can be automatically learned using the interaction data with the environment. Nevertheless, the reward function for an RL agent, which is significant to its performance, is challenging to be determined. The conventional work mainly focuses on rewarding safe driving states but does not incorporate the awareness of risky driving behaviors of the vehicles. In this paper, we investigate how to use risk-aware reward shaping to leverage the training and test performance of RL agents in autonomous driving. Based on the essential requirements that prescribe the safety specifications for general autonomous driving in practice, we propose additional reshaped reward terms that encourage exploration and penalize risky driving behaviors. A simulation study in OpenAI Gym indicates the advantage of risk-aware reward shaping for various RL agents. Also, we point out that proximal policy optimization (PPO) is likely to be the best RL method that works with risk-aware reward shaping.
arxiv情報
著者 | Lin-Chi Wu,Zengjie Zhang,Sofie Haesaert,Zhiqiang Ma,Zhiyong Sun |
発行日 | 2023-06-05 20:10:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google