Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning

要約

深層強化学習 (DRL) のエキサイティングで有望なフロンティアは、現実世界のロボット システムへの応用です。
最新の DRL アプローチは、多くのロボット シナリオ (モバイル ロボット工学、手術支援、自動運転など) で目覚ましい成功を収めていますが、予測不可能で非定常な環境は、そのような方法に重大な課題を引き起こす可能性があります。
これらの機能は、遷移モデルのマルコフ特性など、トレーニング プロセスを成功させるための基本的な要件を大幅に損なう可能性があります。
この課題に対処するために、ゲーム エンジンと DRL の統合における最近の進歩を利用した、水中航行のための新しいベンチマーク環境を提案します。
より詳細には、一般化力と安全性の点で信頼できるポリシーを生成するのが難しい可能性がある最先端の DRL アプローチにとっても、ベンチマーク環境には問題があることが示されています。
具体的には、最も広く受け入れられているアルゴリズムの 1 つである PPO に焦点を当て、高度なトレーニング手法 (カリキュラム学習や学習可能なハイパーパラメーターなど) を提案します。
当社の広範な経験的評価により、これらの成分を適切に設計して組み合わせることにより、有望な結果が得られることが示されています。
この未解決の問題に関するさらなる研究を促進し、現場でのコラボレーションを促進するために、当社のシミュレーション環境とトレーニング ベースラインは無料で利用できます。

要約(オリジナル)

An exciting and promising frontier for Deep Reinforcement Learning (DRL) is its application to real-world robotic systems. While modern DRL approaches achieved remarkable successes in many robotic scenarios (including mobile robotics, surgical assistance, and autonomous driving) unpredictable and non-stationary environments can pose critical challenges to such methods. These features can significantly undermine fundamental requirements for a successful training process, such as the Markovian properties of the transition model. To address this challenge, we propose a new benchmarking environment for aquatic navigation using recent advances in the integration between game engines and DRL. In more detail, we show that our benchmarking environment is problematic even for state-of-the-art DRL approaches that may struggle to generate reliable policies in terms of generalization power and safety. Specifically, we focus on PPO, one of the most widely accepted algorithms, and we propose advanced training techniques (such as curriculum learning and learnable hyperparameters). Our extensive empirical evaluation shows that a well-designed combination of these ingredients can achieve promising results. Our simulation environment and training baselines are freely available to facilitate further research on this open problem and encourage collaboration in the field.

arxiv情報

著者 Davide Corsi,Davide Camponogara,Alessandro Farinelli
発行日 2024-05-30 23:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク