要約
自動運転車には、安全で効率的な意思決定システムが不可欠です。
しかし、運転環境の複雑さと変動性により、多くのルールベースおよび機械学習ベースの意思決定アプローチの有効性が制限されます。
自動運転における強化学習は、これらの課題に対する有望な解決策を提供します。
それにもかかわらず、トレーニング中の安全性と効率性に関する懸念が、その広範な適用にとって依然として大きな障害となっています。
これらの懸念に対処するために、私たちは Simple to Complex Collaborative Decision という名前の新しい RL フレームワークを提案します。
まず、軽量シミュレーション環境で近接ポリシー最適化アルゴリズムを使用して教師モデルを迅速にトレーニングします。
より複雑なシミュレーション環境では、学生エージェントが次善の行動を示したときに、危険な状況を回避するための行動の価値を評価することによって教師モデルが介入します。
また、アダプティブ クリッピング PPO と呼ばれる革新的な RL アルゴリズムも導入します。これは、教師と生徒の両方のポリシーによって生成されたサンプルの組み合わせを使用してトレーニングされ、サンプルの重要性に基づいた動的なクリッピング戦略を採用します。
さらに、KL ダイバージェンスをポリシー最適化の制約として使用し、それを制約のない問題に変換して、教師のポリシーについての生徒の学習を促進します。
最後に、段階的なウィーニング戦略が採用され、時間の経過とともにスチューデント エージェントが独立して探索できるようになります。
高速道路の車線変更シナリオにおけるシミュレーション実験では、最先端のベースライン アルゴリズムと比較して、S2CD フレームワークが学習効率を高め、トレーニング コストを削減し、トレーニング中の安全性を大幅に向上させることが実証されました。
このアプローチにより、教師モデルと生徒モデルの間で、また教師モデルが最適ではない場合でも、効果的な知識伝達が保証されます。
要約(オリジナル)
A safe and efficient decision-making system is crucial for autonomous vehicles. However, the complexity and variability of driving environments limit the effectiveness of many rule-based and machine learning-based decision-making approaches. Reinforcement Learning in autonomous driving offers a promising solution to these challenges. Nevertheless, concerns regarding safety and efficiency during training remain major obstacles to its widespread application. To address these concerns, we propose a novel RL framework named Simple to Complex Collaborative Decision. First, we rapidly train the teacher model using the Proximal Policy Optimization algorithm in a lightweight simulation environment. In the more intricate simulation environment, the teacher model intervenes when the student agent exhibits suboptimal behavior by assessing the value of actions to avert dangerous situations. We also introduce an innovative RL algorithm called Adaptive Clipping PPO, which is trained using a combination of samples generated by both teacher and student policies, and employs dynamic clipping strategies based on sample importance. Additionally, we employ the KL divergence as a constraint on policy optimization, transforming it into an unconstrained problem to accelerate the student’s learning of the teacher’s policy. Finally, a gradual weaning strategy is employed to ensure that, over time, the student agent learns to explore independently. Simulation experiments in highway lane-change scenarios demonstrate that the S2CD framework enhances learning efficiency, reduces training costs, and significantly improves safety during training when compared with state-of-the-art baseline algorithms. This approach also ensures effective knowledge transfer between teacher and student models, and even when the teacher model is suboptimal.
arxiv情報
著者 | Rongliang Zhou,Jiakun Huang,Mingjun Li,Hepeng Li,Haotian Cao,Xiaolin Song |
発行日 | 2024-10-21 17:34:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google