Safe Exploration Using Bayesian World Models and Log-Barrier Optimization

要約

オンライン タスクに強化学習を導入する際の大きな課題は、学習プロセス全体を通じて安全性を確保することです。
この研究では、学習中にポリシーを安全に保ちながら、制約付きマルコフ決定プロセスを解決するための新しい方法である CERL を提案します。
私たちの手法はベイズ世界モデルを活用し、全体的に悲観的な政策を提案します。
モデルの認識論的不確実性。
これにより、CERL はモデルの不正確さに対して堅牢になり、学習中の安全な探索につながります。
私たちの実験では、画像観察から CMDP を解く際の安全性と最適性の点で、CERL が現在の最先端技術よりも優れていることを実証しました。

要約(オリジナル)

A major challenge in deploying reinforcement learning in online tasks is ensuring that safety is maintained throughout the learning process. In this work, we propose CERL, a new method for solving constrained Markov decision processes while keeping the policy safe during learning. Our method leverages Bayesian world models and suggests policies that are pessimistic w.r.t. the model’s epistemic uncertainty. This makes CERL robust towards model inaccuracies and leads to safe exploration during learning. In our experiments, we demonstrate that CERL outperforms the current state-of-the-art in terms of safety and optimality in solving CMDPs from image observations.

arxiv情報

著者 Yarden As,Bhavya Sukhija,Andreas Krause
発行日 2024-05-09 16:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク