Polynomial-Time Approximability of Constrained Reinforcement Learning

要約

一般的な制約されたマルコフ決定プロセスを近似する計算の複雑さを研究します。
私たちの主な貢献は、多項式時間$(0、\ epsilon)$の設計です。

下限を一致させることは、近似保証が$ p \ neq np $である限り最適であることを意味します。
私たちのアプローチの一般性は、制約された強化学習文献におけるいくつかの長年のオープンな複雑さの質問に対する回答をもたらします。
具体的には、次の設定の多項式時間近似性を証明したのは、偶然の制約に基づくポリシー、複数の期待制約に基づく決定論的ポリシー、非同等の制約(すなわち、さまざまなタイプの制約)に基づくポリシー、および継続的な制約の下でのポリシー
– ステートプロセス。

要約(オリジナル)

We study the computational complexity of approximating general constrained Markov decision processes. Our primary contribution is the design of a polynomial time $(0,\epsilon)$-additive bicriteria approximation algorithm for finding optimal constrained policies across a broad class of recursively computable constraints, including almost-sure, chance, expectation, and their anytime variants. Matching lower bounds imply our approximation guarantees are optimal so long as $P \neq NP$. The generality of our approach results in answers to several long-standing open complexity questions in the constrained reinforcement learning literature. Specifically, we are the first to prove polynomial-time approximability for the following settings: policies under chance constraints, deterministic policies under multiple expectation constraints, policies under non-homogeneous constraints (i.e., constraints of different types), and policies under constraints for continuous-state processes.

arxiv情報

著者 Jeremy McMahan
発行日 2025-02-11 18:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク