Environment as Policy: Learning to Race in Unseen Tracks

要約

Renforce Learning(RL)は、RLエージェントが既知のレーシングトラックで人間のチャンピオンよりも優れているドローンレースなど、複雑なロボット制御タスクで顕著な成功を収めています。
ただし、これらのエージェントは目に見えないトラック構成で失敗し、新しいトラックレイアウトを提示する場合は常に完全な再訓練が必要です。
この作業は、再訓練なしで新しいトラック構成に効果的に一般化するRLエージェントを開発することを目的としています。
トラックレイアウトの多様なセットで直接トレーニングする素朴なソリューションは、エージェントに負担をかける可能性があり、環境の複雑さの増加がエージェントの飛行を学ぶ能力を損なうため、最適ではない政策学習をもたらす可能性があります。
RLエージェントの一般化可能性を高めるために、エージェントのパフォーマンスに基づいてトレーニング環境を動的に調整する適応環境形成フレームワークを提案します。
これを達成し、二次RLポリシーを活用して、挑戦的で達成可能であることとのバランスをとる環境を設計し、エージェントが徐々に適応して改善できるようにします。
適応環境の形成を使用して、1つの単一のレースポリシーが、多様な挑戦的なトラックでのレースを効率的に学習します。
シミュレーションと現実世界の両方で検証された実験結果は、ドローンが複雑で目に見えないレーストラックをうまく飛ばし、既存の環境形成技術を上回ることができることを示しています。
プロジェクトページ:http://rpg.ifi.uzh.ch/env_as_policy。

要約(オリジナル)

Reinforcement learning (RL) has achieved outstanding success in complex robot control tasks, such as drone racing, where the RL agents have outperformed human champions in a known racing track. However, these agents fail in unseen track configurations, always requiring complete retraining when presented with new track layouts. This work aims to develop RL agents that generalize effectively to novel track configurations without retraining. The naive solution of training directly on a diverse set of track layouts can overburden the agent, resulting in suboptimal policy learning as the increased complexity of the environment impairs the agent’s ability to learn to fly. To enhance the generalizability of the RL agent, we propose an adaptive environment-shaping framework that dynamically adjusts the training environment based on the agent’s performance. We achieve this by leveraging a secondary RL policy to design environments that strike a balance between being challenging and achievable, allowing the agent to adapt and improve progressively. Using our adaptive environment shaping, one single racing policy efficiently learns to race in diverse challenging tracks. Experimental results validated in both simulation and the real world show that our method enables drones to successfully fly complex and unseen race tracks, outperforming existing environment-shaping techniques. Project page: http://rpg.ifi.uzh.ch/env_as_policy.

arxiv情報

著者 Hongze Wang,Jiaxu Xing,Nico Messikommer,Davide Scaramuzza
発行日 2025-03-17 14:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク