要約
このペーパーでは、強化学習(RL)を使用して、エンドツーエンドの自律駆動剤のトレーニングの課題に対処します。
RLエージェントは通常、シミュレーションにおける周囲の道路利用者の一連のシナリオと名目上の動作で訓練され、一般化と実生活の展開を制限します。
ドメインランダム化は、ドライビングシナリオをランダムにサンプリングすることにより潜在的なソリューションを提供しますが、トレーニングシナリオ間の高いばらつきにより、非効率的なトレーニングと最適なポリシーを頻繁に引き起こします。
これらの制限に対処するために、エージェントの進化する機能に基づいて、適応的な複雑さで運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案します。
専門家のバイアスを導入し、スケーラビリティを欠く手動で設計されたカリキュラムとは異なり、私たちのフレームワークには、学習の可能性に基づいて運転シナリオを自動的に生成および変異させる「教師」を組み込みます – エージェントの現在のポリシーから導出されたエージェント中心のメトリック – は、専門家の設計の必要性を排除します。
このフレームワークは、エージェントがマスターしたシナリオを除外することにより、トレーニング効率を向上させます。
エージェントがカメラ画像から運転ポリシーを学習する補強学習設定でフレームワークを評価します。
固定シナリオトレーニングやドメインのランダム化を含むベースライン方法との比較結果は、私たちのアプローチが一般化の強化につながり、より高い成功率を達成することを示しています。トラフィック密度が低い+9 \%、トラフィック密度が高い+21 \%、トレーニングステップの少ない速度の収束。
私たちの調査結果は、RLベースの自律運転剤の堅牢性と効率を改善するACLの可能性を強調しています。
要約(オリジナル)
This paper addresses the challenges of training end-to-end autonomous driving agents using Reinforcement Learning (RL). RL agents are typically trained in a fixed set of scenarios and nominal behavior of surrounding road users in simulations, limiting their generalization and real-life deployment. While domain randomization offers a potential solution by randomly sampling driving scenarios, it frequently results in inefficient training and sub-optimal policies due to the high variance among training scenarios. To address these limitations, we propose an automatic curriculum learning framework that dynamically generates driving scenarios with adaptive complexity based on the agent’s evolving capabilities. Unlike manually designed curricula that introduce expert bias and lack scalability, our framework incorporates a “teacher” that automatically generates and mutates driving scenarios based on their learning potential — an agent-centric metric derived from the agent’s current policy — eliminating the need for expert design. The framework enhances training efficiency by excluding scenarios the agent has mastered or finds too challenging. We evaluate our framework in a reinforcement learning setting where the agent learns a driving policy from camera images. Comparative results against baseline methods, including fixed scenario training and domain randomization, demonstrate that our approach leads to enhanced generalization, achieving higher success rates: +9\% in low traffic density, +21\% in high traffic density, and faster convergence with fewer training steps. Our findings highlight the potential of ACL in improving the robustness and efficiency of RL-based autonomous driving agents.
arxiv情報
著者 | Ahmed Abouelazm,Tim Weinstein,Tim Joseph,Philip Schörner,J. Marius Zöllner |
発行日 | 2025-05-13 06:26:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google