Feasible Policy Iteration

要約

タイトル:Feasible Policy Iteration

要約:
・安全な強化学習(RL)は、安全性の制約の下で最適な制御問題を解決することを目的としています。
・既存の「直接」の安全なRL方法は、学習過程全体で元の制約を使用します。
・彼らはまた、反復中のポリシーの理論的保証が欠けていたり、実行不可能性の問題に苦しんでいたりします。
・この問題に対処するために、私たちは「間接的」な安全なRL方法である、実現可能な方策反復(FPI)を提案しています。これは、最後のポリシーの実現可能領域を反復的に使用して、現在のポリシーを制限します。
・実現可能領域は、制約減衰関数(CDF)と呼ばれる実現可能性関数によって表されます。
・FPIのコアは、実現可能な方策改善と呼ばれる領域別の方策更新ルールであり、実現可能領域内のCDFの制約下で収益を最大化し、実現可能領域外ではCDFを最小化します。
・この更新ルールは常に実行可能であり、実現可能領域が一貫して拡大し、実現可能領域内で状態価値関数が一貫して増加することを保証します。
・FPIが最大実現可能領域と最適な状態価値関数に収束すること、実現可能ベルマン方程式を使用して証明します。
・Classic ControlタスクやSafety Gymでの実験では、私たちのアルゴリズムがベースラインよりも低い制約違反率と、比較可能または高い性能を実現していることが示されています。

要約(オリジナル)

Safe reinforcement learning (RL) aims to solve an optimal control problem under safety constraints. Existing $\textit{direct}$ safe RL methods use the original constraint throughout the learning process. They either lack theoretical guarantees of the policy during iteration or suffer from infeasibility problems. To address this issue, we propose an $\textit{indirect}$ safe RL method called feasible policy iteration (FPI) that iteratively uses the feasible region of the last policy to constrain the current policy. The feasible region is represented by a feasibility function called constraint decay function (CDF). The core of FPI is a region-wise policy update rule called feasible policy improvement, which maximizes the return under the constraint of the CDF inside the feasible region and minimizes the CDF outside the feasible region. This update rule is always feasible and ensures that the feasible region monotonically expands and the state-value function monotonically increases inside the feasible region. Using the feasible Bellman equation, we prove that FPI converges to the maximum feasible region and the optimal state-value function. Experiments on classic control tasks and Safety Gym show that our algorithms achieve lower constraint violations and comparable or higher performance than the baselines.

arxiv情報

著者 Yujie Yang,Zhilong Zheng,Shengbo Eben Li
発行日 2023-04-18 09:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク