要約
安全性は、実際の問題に強化学習 (RL) を適用するために不可欠な要件です。
近年、安全な RL アルゴリズムが提案されることが急増していますが、既存の研究のほとんどは通常、1) 数値による安全性フィードバックの受信に依存しています。
2) 学習プロセス中の安全性は保証されません。
3) 問題を先験的に既知の決定論的な遷移ダイナミクスに限定します。
および/または 4) あらゆる州に対して既知の安全な政策が存在すると仮定します。
したがって、上記の問題に対処するために、我々は、バイナリ安全フィードバックと未知の確率的状態遷移関数を備えた制約付きマルコフ決定プロセス (CMDP) 用の安全な RL アルゴリズムである長期バイナリフィードバック セーフ RL (LoBiSaRL) を提案します。
LoBiSaRL は、エージェントが各エピソードを通じて安全な状態とアクションのペアのみを高い確率で実行するという長期的な安全性を保証しながら、報酬を最大化するようにポリシーを最適化します。
具体的には、LoBiSaRL は一般化線形モデル (GLM) を介してバイナリ安全関数をモデル化し、適切な仮定の下で将来の安全性への影響を推測しながら、各タイム ステップで安全なアクションのみを保守的に実行します。
私たちの理論的結果は、LoBiSaRL が長期的な安全制約を高い確率で保証することを示しています。
最後に、私たちの経験的結果は、報酬の観点からパフォーマンスを大幅に損なうことなく、私たちのアルゴリズムが既存の方法よりも安全であることを示しています。
要約(オリジナル)
Safety is an indispensable requirement for applying reinforcement learning (RL) to real problems. Although there has been a surge of safe RL algorithms proposed in recent years, most existing work typically 1) relies on receiving numeric safety feedback; 2) does not guarantee safety during the learning process; 3) limits the problem to a priori known, deterministic transition dynamics; and/or 4) assume the existence of a known safe policy for any states. Addressing the issues mentioned above, we thus propose Long-term Binaryfeedback Safe RL (LoBiSaRL), a safe RL algorithm for constrained Markov decision processes (CMDPs) with binary safety feedback and an unknown, stochastic state transition function. LoBiSaRL optimizes a policy to maximize rewards while guaranteeing a long-term safety that an agent executes only safe state-action pairs throughout each episode with high probability. Specifically, LoBiSaRL models the binary safety function via a generalized linear model (GLM) and conservatively takes only a safe action at every time step while inferring its effect on future safety under proper assumptions. Our theoretical results show that LoBiSaRL guarantees the long-term safety constraint, with high probability. Finally, our empirical results demonstrate that our algorithm is safer than existing methods without significantly compromising performance in terms of reward.
arxiv情報
著者 | Akifumi Wachi,Wataru Hashimoto,Kazumune Hashimoto |
発行日 | 2024-01-11 11:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google