Safe Reinforcement Learning via Probabilistic Logic Shields

要約

安全強化学習(Safe RL)は、安全性を保ちながら最適な方針を学習することを目的としている。安全なRLのための一般的なソリューションは、RLエージェントが安全でない行動を取るのを防ぐために論理的な安全仕様を使用する遮蔽である。しかし、従来のシールド技術は、連続的でエンドツーエンドの深いRL手法と統合することが困難である。このため、確率的論理政策勾配(PLPG)を紹介する。PLPGはモデルベースの安全RL手法であり、確率論的論理プログラミングを用いて論理的安全制約を微分可能な関数としてモデル化する。そのため、PLPGはどのような政策勾配アルゴリズムにもシームレスに適用でき、かつ同じ収束保証を提供することができる。実験では、他の最先端の遮蔽技術と比較して、PLPGがより安全で報酬の高いポリシーを学習することを示す。

要約(オリジナル)

Safe Reinforcement learning (Safe RL) aims at learning optimal policies while staying safe. A popular solution to Safe RL is shielding, which uses a logical safety specification to prevent an RL agent from taking unsafe actions. However, traditional shielding techniques are difficult to integrate with continuous, end-to-end deep RL methods. To this end, we introduce Probabilistic Logic Policy Gradient (PLPG). PLPG is a model-based Safe RL technique that uses probabilistic logic programming to model logical safety constraints as differentiable functions. Therefore, PLPG can be seamlessly applied to any policy gradient algorithm while still providing the same convergence guarantees. In our experiments, we show that PLPG learns safer and more rewarding policies compared to other state-of-the-art shielding techniques.

arxiv情報

著者 Wen-Chi Yang,Giuseppe Marra,Gavin Rens,Luc De Raedt
発行日 2023-03-06 15:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク