Anytime-Constrained Reinforcement Learning

要約

私たちは、いつでも制約のある制約付きマルコフ決定プロセス (cMDP) を導入し、研究します。
いつでも制約では、エージェントはどの時点でも、ほぼ確実に予算に違反しないことが要求されます。
マルコフ政策はもはや十分ではありませんが、累積コストで強化された最適な決定論的政策が存在することを示します。
実際、我々は、いつでも制約のある cMDP から制約のない MDP への固定パラメータの扱いやすい削減を提示します。
私たちの削減により、コストの精度が cMDP のサイズで対数である限り、表形式の cMDP に対して時間効率とサンプル効率が高い計画および学習アルゴリズムが得られます。
ただし、自明ではない近似的に最適なポリシーを計算することは、一般に NP 困難であることも示します。
このボトルネックを回避するために、サポートされる最大コストが cMDP の多項式または絶対予算によって制限される限り、最適な値でほぼ実行可能なポリシーを効率的に計算または学習する証明可能な近似アルゴリズムを設計します。
当社の硬度結果を考慮すると、当社の近似保証は、最悪の場合の分析における扱いやすさの点で可能な限り最高のものとなります。

要約(オリジナル)

We introduce and study constrained Markov Decision Processes (cMDPs) with anytime constraints. An anytime constraint requires the agent to never violate its budget at any point in time, almost surely. Although Markovian policies are no longer sufficient, we show that there exist optimal deterministic policies augmented with cumulative costs. In fact, we present a fixed-parameter tractable reduction from anytime-constrained cMDPs to unconstrained MDPs. Our reduction yields planning and learning algorithms that are time and sample-efficient for tabular cMDPs so long as the precision of the costs is logarithmic in the size of the cMDP. However, we also show that computing non-trivial approximately optimal policies is NP-hard in general. To circumvent this bottleneck, we design provable approximation algorithms that efficiently compute or learn an approximately feasible policy with optimal value so long as the maximum supported cost is bounded by a polynomial in the cMDP or by the absolute budget. Given our hardness results, our approximation guarantees are the best possible in terms of tractability under worst-case analysis.

arxiv情報

著者 Jeremy McMahan,Xiaojin Zhu
発行日 2023-11-09 16:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク