要約
強化学習は、純粋に実世界のインタラクションを通じて表現ポリシーを学習できるため、ロボット制御に魅力的なフレームワークを提供します。
ただし、これには現実世界の制約に対処し、トレーニング中の致命的な失敗を回避する必要があり、学習の進行と最終ポリシーのパフォーマンスの両方が大幅に妨げられる可能性があります。
多くのロボット設定では、これは特定の「危険な」状態を回避することになります。
高速オフロード運転タスクは、この問題の特に困難な具体化を表しています。ハイリターンポリシーでは、可能な限り積極的かつ迅速に運転する必要があり、多くの場合、一連の「安全」状態の端に近づく必要があります。
したがって、頻繁な失敗を避けるためにメソッドに特別な負担がかかります。
パフォーマンスの高いポリシーを学習し、過度の失敗を回避するために、リスクに敏感な制御と適応アクション スペース カリキュラムを組み合わせた強化学習フレームワークを提案します。
さらに、認識論的不確実性の推定器が装備されている場合、リスクに敏感な目標が自動的に分布外状態を回避することを示します。
私たちはアルゴリズムを小規模のラリーカーに実装し、現実世界のオフロード運転タスクのための高速ポリシーを学習できることを示しました。
私たちの方法により、トレーニングプロセス中の安全違反の数が大幅に減少し、実際に同様の課題を抱えた運転シミュレーション環境と非運転シミュレーション環境の両方でより高いパフォーマンスのポリシーが得られることを示します。
要約(オリジナル)
Reinforcement learning provides an appealing framework for robotic control due to its ability to learn expressive policies purely through real-world interaction. However, this requires addressing real-world constraints and avoiding catastrophic failures during training, which might severely impede both learning progress and the performance of the final policy. In many robotics settings, this amounts to avoiding certain ‘unsafe’ states. The high-speed off-road driving task represents a particularly challenging instantiation of this problem: a high-return policy should drive as aggressively and as quickly as possible, which often requires getting close to the edge of the set of ‘safe’ states, and therefore places a particular burden on the method to avoid frequent failures. To both learn highly performant policies and avoid excessive failures, we propose a reinforcement learning framework that combines risk-sensitive control with an adaptive action space curriculum. Furthermore, we show that our risk-sensitive objective automatically avoids out-of-distribution states when equipped with an estimator for epistemic uncertainty. We implement our algorithm on a small-scale rally car and show that it is capable of learning high-speed policies for a real-world off-road driving task. We show that our method greatly reduces the number of safety violations during the training process, and actually leads to higher-performance policies in both driving and non-driving simulation environments with similar challenges.
arxiv情報
著者 | Kyle Stachowicz,Sergey Levine |
発行日 | 2024-05-07 23:32:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google