要約
自動運転車には、安全で効率的な意思決定システムが不可欠です。
ただし、運転環境の複雑さにより、多くのルールベースの機械学習アプローチの有効性が制限されます。
強化学習 (RL) は、堅牢な自己学習機能と環境適応性を備えており、これらの課題に対する有望なソリューションを提供します。
それにもかかわらず、トレーニング中の安全性と効率性への懸念が、その広範な適用の妨げとなっています。
これらの懸念に対処するために、私たちは新しい RL フレームワークである Simple to Complex Collaborative Decision (S2CD) を提案します。
まず、軽量のシミュレーション環境で教師モデルを迅速にトレーニングします。
より複雑で現実的な環境では、生徒エージェントが次善の行動を示した場合、教師は危険を回避するために行動の価値を評価することで介入します。
また、Adaptive Clipping Proximal Policy Optimization Plus と呼ばれる RL アルゴリズムも導入します。これは、教師と生徒の両方のポリシーからのサンプルを結合し、サンプルの重要性に基づいて動的なクリッピング戦略を採用します。
このアプローチにより、データの不均衡を効果的に軽減しながら、サンプル効率が向上します。
さらに、カルバックとライブラーの発散をポリシー制約として採用し、それをラグランジュ法による制約のない問題に変換して、生徒の学習を加速します。
最後に、段階的なウィーニング戦略により、生徒は時間をかけて自主的に探究することを学び、教師の制限を克服し、パフォーマンスを最大化することができます。
高速道路の車線変更シナリオにおけるシミュレーション実験では、S2CD フレームワークが最先端のアルゴリズムと比較して学習効率を高め、トレーニング コストを削減し、安全性を大幅に向上させることが示されています。
このフレームワークは、教師と生徒のモデル間の効果的な知識伝達も保証し、教師が最適ではない場合でも、生徒は優れたパフォーマンスを達成し、S2CD の堅牢性と有効性を実証します。
要約(オリジナル)
A safe and efficient decision-making system is crucial for autonomous vehicles. However, the complexity of driving environments limits the effectiveness of many rule-based and machine learning approaches. Reinforcement Learning (RL), with its robust self-learning capabilities and environmental adaptability, offers a promising solution to these challenges. Nevertheless, safety and efficiency concerns during training hinder its widespread application. To address these concerns, we propose a novel RL framework, Simple to Complex Collaborative Decision (S2CD). First, we rapidly train the teacher model in a lightweight simulation environment. In the more complex and realistic environment, teacher intervenes when the student agent exhibits suboptimal behavior by assessing actions’ value to avert dangers. We also introduce an RL algorithm called Adaptive Clipping Proximal Policy Optimization Plus, which combines samples from both teacher and student policies and employs dynamic clipping strategies based on sample importance. This approach improves sample efficiency while effectively alleviating data imbalance. Additionally, we employ the Kullback-Leibler divergence as a policy constraint, transforming it into an unconstrained problem with the Lagrangian method to accelerate the student’s learning. Finally, a gradual weaning strategy ensures that the student learns to explore independently over time, overcoming the teacher’s limitations and maximizing performance. Simulation experiments in highway lane-change scenarios show that the S2CD framework enhances learning efficiency, reduces training costs, and significantly improves safety compared to state-of-the-art algorithms. This framework also ensures effective knowledge transfer between teacher and student models, even with suboptimal teachers, the student achieves superior performance, demonstrating the robustness and effectiveness of S2CD.
arxiv情報
著者 | Rongliang Zhou,Jiakun Huang,Mingjun Li,Hepeng Li,Haotian Cao,Xiaolin Song |
発行日 | 2024-11-04 17:09:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google