From Simple to Complex: Knowledge Transfer in Safe and Efficient Reinforcement Learning for Autonomous Driving

要約

自動運転車には、安全で効率的な意思決定システムが不可欠です。
ただし、運転環境の複雑さにより、多くのルールベースおよび機械学習ベースの意思決定アプローチの有効性が制限されます。
自動運転における強化学習の導入は、これらの課題に対する有望な解決策を提示しますが、トレーニング中の安全性と効率性に関する懸念が、その広範な適用にとって依然として大きな障害となっています。
これらの懸念に対処するために、私たちは Simple to Complex Collaborative Decision という名前の新しいフレームワークを提案します。
まず、軽量の自動運転シミュレーション環境で近接ポリシー最適化アルゴリズムを使用して教師モデルを迅速にトレーニングします。
より複雑なシミュレーション環境では、学生エージェントが次善の行動を示したときに、危険な状況を回避するための行動の価値を評価することによって教師モデルが介入します。
次に、適応クリッピング近接ポリシー最適化と呼ばれる革新的なアルゴリズムを開発しました。
教師と生徒の両方のポリシーによって生成されたサンプルの組み合わせを使用してトレーニングし、サンプルの重要性に基づいて動的なクリッピング戦略を適用することで、アルゴリズムがさまざまなソースからのサンプルをより効率的に利用できるようにします。
さらに、学生エージェントによる教師のポリシーの迅速な学習を促進するために、教師と生徒のポリシー間の KL の相違をポリシー最適化の制約として採用します。
最後に、教師の介入を徐々に減らす適切なウィーニング戦略を採用することで、トレーニングの後期段階でスチューデント エージェントが独立して環境を完全に探索できるようになります。
高速道路の車線変更シナリオにおけるシミュレーション実験では、ベースラインアルゴリズムと比較して、私たちが提案したフレームワークが学習効率を向上させ、トレーニングコストを削減するだけでなく、トレーニング中の安全性も大幅に強化することを実証しました。

要約(オリジナル)

A safe and efficient decision-making system is crucial for autonomous vehicles. However, the complexity of driving environments limit the effectiveness of many rule-based and machine learning-based decision-making approaches. The introduction of Reinforcement Learning in autonomous driving presents a promising solution to these challenges, although concerns about safety and efficiency during training remain major obstacles to its widespread application. To address these concerns, we propose a novel framework named Simple to Complex Collaborative Decision. First, we rapidly train the teacher model using the Proximal Policy Optimization algorithm in a lightweight autonomous driving simulation environment. In the more complex simulation environment, the teacher model intervenes when the student agent exhibits sub-optimal behavior by assessing the value of actions to avert dangerous situations. Next, we developed an innovative algorithm called Adaptive Clipping Proximal Policy Optimization. It trains using a combination of samples generated by both the teacher and student policies and applies dynamic clipping strategies based on sample importance, enabling the algorithm to utilize samples from diverse sources more efficiently. Additionally, we employ the KL divergence between the teacher’s and student’s policies as a constraint for policy optimization to facilitate the student agent’s rapid learning of the teacher’s policy. Finally, by adopting an appropriate weaning strategy to gradually reduce teacher intervention, we ensure that the student agent can fully explore the environment independently during the later stages of training. Simulation experiments in highway lane-change scenarios demonstrate that, compared to baseline algorithms, our proposed framework not only improves learning efficiency and reduces training costs but also significantly enhances safety during training.

arxiv情報

著者 Rongliang Zhou,Jiakun Huang,Mingjun Li,Hepeng Li,Haotian Cao,Xiaolin Song
発行日 2024-10-18 13:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク