要約
強化学習(RL)は、シミュレート対エンドの試行錯誤の学習体験により、複雑な運動力学モデリング、計画、および制御を回避することにより、極端なオフロードモビリティを可能にする可能性があります。
ただし、ほとんどのRLメソッドは、手動で設計された大量のシミュレーション環境でトレーニングし、現実の世界に一般化するのに苦労する場合、サンプルが不足しています。
これらの問題に対処するために、トレーニング地域を選択的にサンプリングすることにより、学習効率と一般化を強化するために設計された自動カリキュラム学習フレームワークであるVertiselector(VS)を紹介します。
VSは、再検討時により高い時間差(TD)エラーで垂直に挑戦する地形を優先し、それにより、ロボットが進化する機能の端で学習できるようにします。
サンプリングフォーカスを動的に調整することにより、Chrono Multi-Physicsエンジンに基づいて構築されたVW-Chronoシミュレーター内のサンプル効率と一般化を大幅に向上させます。
さらに、VERTI-4ホイーラープラットフォームでVSを使用して、シミュレーションと物理的結果を提供します。
これらの結果は、VSがトレーニング中に効率的にサンプリングし、現実の世界に堅牢に一般化することにより、成功率に関して23.08%の改善を達成できることを示しています。
要約(オリジナル)
Reinforcement Learning (RL) has the potential to enable extreme off-road mobility by circumventing complex kinodynamic modeling, planning, and control by simulated end-to-end trial-and-error learning experiences. However, most RL methods are sample-inefficient when training in a large amount of manually designed simulation environments and struggle at generalizing to the real world. To address these issues, we introduce VertiSelector (VS), an automatic curriculum learning framework designed to enhance learning efficiency and generalization by selectively sampling training terrain. VS prioritizes vertically challenging terrain with higher Temporal Difference (TD) errors when revisited, thereby allowing robots to learn at the edge of their evolving capabilities. By dynamically adjusting the sampling focus, VS significantly boosts sample efficiency and generalization within the VW-Chrono simulator built on the Chrono multi-physics engine. Furthermore, we provide simulation and physical results using VS on a Verti-4-Wheeler platform. These results demonstrate that VS can achieve 23.08% improvement in terms of success rate by efficiently sampling during training and robustly generalizing to the real world.
arxiv情報
著者 | Tong Xu,Chenhui Pan,Xuesu Xiao |
発行日 | 2025-02-17 02:06:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google