要約
制約付き強化学習 (CRL) の問題は、強化学習 (RL) の分野における重要な安全性満足度の懸念に対処するためのフレームワークを提供するため、非常に重要です。
ただし、制約満足の導入により、現在の CRL 手法では、追加のラグランジュ乗数を備えた 2 次最適化または主双対フレームワークの利用が必要となり、実装時の複雑さと非効率が増大します。
これらの問題に対処するために、我々は Constrained Proximal Policy Optimization (CPPO) と呼ばれる新しい一次実行可能な手法を提案します。
CRL 問題を確率的推論問題として扱うことにより、私たちのアプローチは、期待値最大化フレームワークを統合して、2 つのステップを通じてそれを解決します。1) 実現可能領域内の最適なポリシー分布を計算する (E ステップ)、および 2) 最初のステップを実行します。
E ステップ (M ステップ) で取得された最適なポリシーに向けて現在のポリシーを調整するための更新の順序。
確率比と KL 発散の間の関係を確立して、E ステップを凸最適化問題に変換します。
さらに、この問題を解決するために、幾何学的観点から反復ヒューリスティック アルゴリズムを開発します。
さらに、既存の実行可能領域法で発生する制約違反の問題を克服するために、保守的な更新メカニズムを導入します。
複雑で不確実な環境で実施された経験的評価は、少なくとも他のベースラインと同様に機能するため、提案された方法の有効性を検証します。
要約(オリジナル)
The problem of constrained reinforcement learning (CRL) holds significant importance as it provides a framework for addressing critical safety satisfaction concerns in the field of reinforcement learning (RL). However, with the introduction of constraint satisfaction, the current CRL methods necessitate the utilization of second-order optimization or primal-dual frameworks with additional Lagrangian multipliers, resulting in increased complexity and inefficiency during implementation. To address these issues, we propose a novel first-order feasible method named Constrained Proximal Policy Optimization (CPPO). By treating the CRL problem as a probabilistic inference problem, our approach integrates the Expectation-Maximization framework to solve it through two steps: 1) calculating the optimal policy distribution within the feasible region (E-step), and 2) conducting a first-order update to adjust the current policy towards the optimal policy obtained in the E-step (M-step). We establish the relationship between the probability ratios and KL divergence to convert the E-step into a convex optimization problem. Furthermore, we develop an iterative heuristic algorithm from a geometric perspective to solve this problem. Additionally, we introduce a conservative update mechanism to overcome the constraint violation issue that occurs in the existing feasible region method. Empirical evaluations conducted in complex and uncertain environments validate the effectiveness of our proposed method, as it performs at least as well as other baselines.
arxiv情報
著者 | Chengbin Xuan,Feng Zhang,Faliang Yin,Hak-Keung Lam |
発行日 | 2023-05-23 16:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google