要約
我々は、確率的安全性制約と、確率的ニューラルネットワークのアンサンブルの認識論的不確実性に直面した楽観主義と偶然の不確実性に直面した悲観主義のバランスを伴う軌跡サンプリングを使用したモデルベースの強化学習におけるリスクを管理するための、シンプルだが効果的な方法を紹介します。
さまざまな実験により、不確実で安全性が重要な制御環境においてデータ駆動型 MPC アプローチを適切に実行するには、不確実性の分離が不可欠であることが示されています。
要約(オリジナル)
We introduce a simple but effective method for managing risk in model-based reinforcement learning with trajectory sampling that involves probabilistic safety constraints and balancing of optimism in the face of epistemic uncertainty and pessimism in the face of aleatoric uncertainty of an ensemble of stochastic neural networks.Various experiments indicate that the separation of uncertainties is essential to performing well with data-driven MPC approaches in uncertain and safety-critical control environments.
arxiv情報
著者 | Marin Vlastelica,Sebastian Blaes,Cristina Pineri,Georg Martius |
発行日 | 2023-09-11 16:10:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google