Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees

要約

制約された意思決定は、現実世界の制御システムで安全なポリシーを設計するために不可欠ですが、シミュレートされた環境は多くの場合、実際の逆境を捉えることができません。
実際のモデルとアクセス可能なシミュレーター/名目モデルの間に不一致がある場合でも、制約を満たしながら累積報酬を最大化するポリシーを学習する問題を検討します。
特に、エージェントが報酬を最大化し、未知の名目モデルを中心とする不確実性セットの下で最悪の確率モデルに対する制約を満たす必要がある堅牢な制約されたマルコフ決定問題(RCMDP)を検討します。
標準的な制約付きMDP(CMDP)に有効な原始的な方法は、強力な二重性特性がないため、ここでは適用されません。
さらに、最悪のケースモデルは報酬値関数と制約値関数の場合に異なる可能性があるため、標準の堅牢な値ベースのアプローチを複合値関数に適用することはできません。
制約値を効果的に最小化する新しい手法を提案します。これは、制約を満たすためです。
一方、すべての制約が満たされると、堅牢な報酬値関数を最大化するだけです。
このようなアルゴリズムは、$ o(\ epsilon^{-2})$ iterationsの後に最大$ \ epsilon $ sub-optimalityと実行可能なポリシーを含むポリシーを見つけることを証明します。
最先端の方法とは対照的に、バイナリ検索を採用する必要はないため、割引係数($ \ gamma $)の場合は少なくとも4倍、$ \ gamma $のより大きな値で少なくとも6倍に計算時間を短縮します。

要約(オリジナル)

Constrained decision-making is essential for designing safe policies in real-world control systems, yet simulated environments often fail to capture real-world adversities. We consider the problem of learning a policy that will maximize the cumulative reward while satisfying a constraint, even when there is a mismatch between the real model and an accessible simulator/nominal model. In particular, we consider the robust constrained Markov decision problem (RCMDP) where an agent needs to maximize the reward and satisfy the constraint against the worst possible stochastic model under the uncertainty set centered around an unknown nominal model. Primal-dual methods, effective for standard constrained MDP (CMDP), are not applicable here because of the lack of the strong duality property. Further, one cannot apply the standard robust value-iteration based approach on the composite value function either as the worst case models may be different for the reward value function and the constraint value function. We propose a novel technique that effectively minimizes the constraint value function–to satisfy the constraints; on the other hand, when all the constraints are satisfied, it can simply maximize the robust reward value function. We prove that such an algorithm finds a policy with at most $\epsilon$ sub-optimality and feasible policy after $O(\epsilon^{-2})$ iterations. In contrast to the state-of-the-art method, we do not need to employ a binary search, thus, we reduce the computation time by at least 4x for smaller value of discount factor ($\gamma$) and by at least 6x for larger value of $\gamma$.

arxiv情報

著者 Sourav Ganguly,Arnob Ghosh,Kishan Panaganti,Adam Wierman
発行日 2025-05-25 17:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク