Environment as Policy: Learning to Race in Unseen Tracks

要約

強化学習 (RL) は、ドローン レースなどの複雑なロボット制御タスクで目覚ましい成功を収めており、RL エージェントは既知のレーシング トラックで人間のチャンピオンを上回りました。
ただし、これらのエージェントは目に見えないトラック構成では失敗するため、新しいトラック レイアウトが提示されると常に完全な再トレーニングが必要になります。
この研究は、再トレーニングすることなく新しいトラック構成に効果的に一般化する RL エージェントを開発することを目的としています。
さまざまなトラック レイアウトのセットで直接トレーニングするという単純な解決策では、エージェントに過度の負担がかかる可能性があり、環境の複雑さの増大によりエージェントの飛行学習能力が損なわれるため、最適なポリシー学習が行われない可能性があります。
RL エージェントの汎用性を高めるために、エージェントのパフォーマンスに基づいてトレーニング環境を動的に調整する適応型環境形成フレームワークを提案します。
これは、セカンダリ RL ポリシーを活用して、困難さと達成可能性のバランスをとる環境を設計することで実現され、エージェントが徐々に適応して改善できるようになります。
適応環境形成を使用することで、単一のレーシング ポリシーが、多様で挑戦的なトラックでのレース方法を効率的に学習します。
シミュレーションと現実世界の両方で検証された実験結果は、私たちの方法により、ドローンが複雑で目に見えないレーストラックをうまく飛行でき、既存の環境形成技術を上回るパフォーマンスを発揮できることを示しています。
プロジェクトページ: http://rpg.ifi.uzh.ch/env_as_policy/index.html

要約(オリジナル)

Reinforcement learning (RL) has achieved outstanding success in complex robot control tasks, such as drone racing, where the RL agents have outperformed human champions in a known racing track. However, these agents fail in unseen track configurations, always requiring complete retraining when presented with new track layouts. This work aims to develop RL agents that generalize effectively to novel track configurations without retraining. The naive solution of training directly on a diverse set of track layouts can overburden the agent, resulting in suboptimal policy learning as the increased complexity of the environment impairs the agent’s ability to learn to fly. To enhance the generalizability of the RL agent, we propose an adaptive environment-shaping framework that dynamically adjusts the training environment based on the agent’s performance. We achieve this by leveraging a secondary RL policy to design environments that strike a balance between being challenging and achievable, allowing the agent to adapt and improve progressively. Using our adaptive environment shaping, one single racing policy efficiently learns to race in diverse challenging tracks. Experimental results validated in both simulation and the real world show that our method enables drones to successfully fly complex and unseen race tracks, outperforming existing environment-shaping techniques. Project page: http://rpg.ifi.uzh.ch/env_as_policy/index.html

arxiv情報

著者 Hongze Wang,Jiaxu Xing,Nico Messikommer,Davide Scaramuzza
発行日 2024-10-29 17:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク