要約
強化学習 (RL) エージェントは、最適な行動を学習し、最大の報酬を達成するために環境を探索する必要があります。
ただし、実際のシステム上で RL を直接トレーニングする場合、探索には危険が伴う可能性がありますが、シミュレーションベースのトレーニングでは、シミュレーションと実際のギャップという厄介な問題が発生します。
最近のアプローチでは、コントロール バリア機能 (CBF) などの安全フィルターを利用して、RL トレーニング中に危険な行為を罰します。
ただし、CBF の強力な安全性保証は、正確な動的モデルに依存しています。
実際には、力学の誤差による内部擾乱や風などの外部擾乱など、不確実性が常に存在します。
この研究では、外乱拒否保護学習に基づいた新しい安全な RL フレームワークを提案します。これにより、想定される、しかし必ずしも正確ではない公称動的モデルを使用した、ほぼモデルフリーの RL が可能になります。
私たちは、ポイント ロボットとカー ロボットのセーフティ ジム ベンチマークで、残差モデル学習または外乱オブザーバー (DOB) のみを使用する最先端のアプローチを上回るすべてのタスクの結果を実証します。
さらに、物理的な F1/10 レーシング カーを使用してフレームワークの有効性を検証します。
ビデオ: https://sites.google.com/view/res-dob-cbf-rl
要約(オリジナル)
Reinforcement learning (RL) agents need to explore their environment to learn optimal behaviors and achieve maximum rewards. However, exploration can be risky when training RL directly on real systems, while simulation-based training introduces the tricky issue of the sim-to-real gap. Recent approaches have leveraged safety filters, such as control barrier functions (CBFs), to penalize unsafe actions during RL training. However, the strong safety guarantees of CBFs rely on a precise dynamic model. In practice, uncertainties always exist, including internal disturbances from the errors of dynamics and external disturbances such as wind. In this work, we propose a new safe RL framework based on disturbance rejection-guarded learning, which allows for an almost model-free RL with an assumed but not necessarily precise nominal dynamic model. We demonstrate our results on the Safety-gym benchmark for Point and Car robots on all tasks where we can outperform state-of-the-art approaches that use only residual model learning or a disturbance observer (DOB). We further validate the efficacy of our framework using a physical F1/10 racing car. Videos: https://sites.google.com/view/res-dob-cbf-rl
arxiv情報
| 著者 | Dvij Kalaria,Qin Lin,John M. Dolan |
| 発行日 | 2024-10-09 06:08:24+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google