CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving

要約

自動運転では、従来のコンピューター ビジョン (CV) エージェントは、トレーニング データの偏りにより、不慣れな状況で苦労することがよくあります。
深層強化学習 (DRL) エージェントは、経験から学習して報酬を最大化することでこの問題に対処し、動的な環境に適応するのに役立ちます。
ただし、特に静的なトレーニング環境では、その一般化を確実にすることは依然として困難です。
さらに、DRL モデルには透明性が欠けているため、すべてのシナリオ、特にトレーニング中に見られないシナリオでの安全性を保証することが困難になります。
これらの課題に対処するために、私たちは DRL と自動運転のためのカリキュラム学習を組み合わせた手法を提案します。
私たちのアプローチでは、近接ポリシー最適化 (PPO) エージェントと変分オートエンコーダー (VAE) を使用して、CARLA シミュレーターで安全運転を学習します。
エージェントは 2 つのカリキュラム学習を使用してトレーニングされ、環境の難易度を段階的に高め、安全性を促進するために報酬関数に衝突ペナルティを組み込みます。
この方法により、複雑な環境におけるエージェントの適応性と信頼性が向上し、単一のスカラー報酬関数内のさまざまなフィードバック信号からの複数の報酬コンポーネントのバランスを取る微妙な違いが理解できます。
キーワード: コンピューター ビジョン、深層強化学習、変分オートエンコーダー、近接ポリシー最適化、カリキュラム学習、自動運転。

要約(オリジナル)

In autonomous driving, traditional Computer Vision (CV) agents often struggle in unfamiliar situations due to biases in the training data. Deep Reinforcement Learning (DRL) agents address this by learning from experience and maximizing rewards, which helps them adapt to dynamic environments. However, ensuring their generalization remains challenging, especially with static training environments. Additionally, DRL models lack transparency, making it difficult to guarantee safety in all scenarios, particularly those not seen during training. To tackle these issues, we propose a method that combines DRL with Curriculum Learning for autonomous driving. Our approach uses a Proximal Policy Optimization (PPO) agent and a Variational Autoencoder (VAE) to learn safe driving in the CARLA simulator. The agent is trained using two-fold curriculum learning, progressively increasing environment difficulty and incorporating a collision penalty in the reward function to promote safety. This method improves the agent’s adaptability and reliability in complex environments, and understand the nuances of balancing multiple reward components from different feedback signals in a single scalar reward function. Keywords: Computer Vision, Deep Reinforcement Learning, Variational Autoencoder, Proximal Policy Optimization, Curriculum Learning, Autonomous Driving.

arxiv情報

著者 Bhargava Uppuluri,Anjel Patel,Neil Mehta,Sridhar Kamath,Pratyush Chakraborty
発行日 2025-01-09 05:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク