要約
強化学習アルゴリズムを学習するには探索が必要です。
ただし、教師なし探索では、安全性が重要なタスクへのそのようなアルゴリズムの展開が妨げられ、現実世界の展開が制限されます。
この論文では、アンサンブル モデル予測安全性認証と呼ばれる新しいアルゴリズムを提案します。このアルゴリズムは、モデルベースの深層強化学習とチューブベースのモデル予測制御を組み合わせて、学習エージェントによって行われるアクションを修正し、計画を通じて安全制約違反を最小限に抑えます。
私たちのアプローチは、安全なコントローラーによって生成されたオフライン データのみを必要とすることで、実際のシステムに関する事前知識の量を減らすことを目的としています。
私たちの結果は、同等の強化学習手法よりも大幅に少ない制約違反を達成できることを示しています。
要約(オリジナル)
Reinforcement learning algorithms need exploration to learn. However, unsupervised exploration prevents the deployment of such algorithms on safety-critical tasks and limits real-world deployment. In this paper, we propose a new algorithm called Ensemble Model Predictive Safety Certification that combines model-based deep reinforcement learning with tube-based model predictive control to correct the actions taken by a learning agent, keeping safety constraint violations at a minimum through planning. Our approach aims to reduce the amount of prior knowledge about the actual system by requiring only offline data generated by a safe controller. Our results show that we can achieve significantly fewer constraint violations than comparable reinforcement learning methods.
arxiv情報
著者 | Sven Gronauer,Tom Haider,Felippe Schmoeller da Roza,Klaus Diepold |
発行日 | 2024-02-06 17:42:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google