Improving Environment Robustness of Deep Reinforcement Learning Approaches for Autonomous Racing Using Bayesian Optimization-based Curriculum Learning

要約

深層強化学習 (RL) アプローチは、ロボット操作や自動運転など、多数のロボット工学タスクに広く適用されています。
ただし、ディープ RL の未解決の問題は、環境の変動に対して堅牢な学習ポリシーであり、これは、このようなシステムを現実世界の非構造化設定に展開するための重要な条件です。
カリキュラム学習は、教師あり学習ドメインと強化学習ドメインの両方で汎化パフォーマンスを向上させるために適用されているアプローチの 1 つですが、堅牢性を実現するために適切なカリキュラムを選択するプロセスはユーザー集中型になる可能性があります。
私たちの研究では、ベイズ最適化を使用して基礎となるカリキュラムと報酬関数の確率的推論を実行することが、堅牢なカリキュラムを見つけるための有望な手法となり得ることを示しています。
私たちは、ベイジアン最適化で見つかったカリキュラムが、障害物回避を伴う自律型レースの領域において、バニラのディープ RL エージェントや手動で設計されたカリキュラムよりも優れたパフォーマンスを発揮できることを実証します。
私たちのコードは https://github.com/PRISHita123/Curriculum_RL_for_Driving で入手できます。

要約(オリジナル)

Deep reinforcement learning (RL) approaches have been broadly applied to a large number of robotics tasks, such as robot manipulation and autonomous driving. However, an open problem in deep RL is learning policies that are robust to variations in the environment, which is an important condition for such systems to be deployed into real-world, unstructured settings. Curriculum learning is one approach that has been applied to improve generalization performance in both supervised and reinforcement learning domains, but selecting the appropriate curriculum to achieve robustness can be a user-intensive process. In our work, we show that performing probabilistic inference of the underlying curriculum-reward function using Bayesian Optimization can be a promising technique for finding a robust curriculum. We demonstrate that a curriculum found with Bayesian optimization can outperform a vanilla deep RL agent and a hand-engineered curriculum in the domain of autonomous racing with obstacle avoidance. Our code is available at https://github.com/PRISHIta123/Curriculum_RL_for_Driving.

arxiv情報

著者 Rohan Banerjee,Prishita Ray,Mark Campbell
発行日 2023-12-16 23:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク