Achieving $\tilde{O}(1/ε)$ Sample Complexity for Constrained Markov Decision Process

要約

我々は、逐次学習および意思決定における安全性またはリソースの制約を満たす上で中心的な役割を果たす、制約付きマルコフ決定プロセス (CMDP) の強化学習問題を検討します。
この問題では、有限のリソースと未知の遷移確率を持つ MDP が与えられます。
各段階で、私たちは行動を起こし、報酬を受け取り、リソースを消費しますが、これらはすべて未知であり、時間をかけて学習する必要があると想定されています。
この作業では、CMDP 問題に対する最適な問題依存の保証を導き出すための最初の一歩を踏み出します。
$\kappa$ が問題となる、対数リグレス限界を導出します。これは $O(\frac{\kappa}{\epsilon}\cdot\log^2(1/\epsilon))$ サンプル複雑さ限界に変換されます。
-依存パラメータですが、$\epsilon$ からは独立しています。
私たちのサンプル複雑さの限界は、$\epsilon$ への依存性の点で、以前の文献で確立された CMDP 問題の最先端の $O(1/\epsilon^2)$ サンプル複雑さを改善しています。
この進歩を達成するために、私たちは CMDP 問題を分析するための新しいフレームワークを開発しました。
具体的には、私たちのアルゴリズムは主空間で動作し、\textit{adaptive} の残りのリソース容量を使用してオンライン方式で各期間の CMDP 問題の主 LP を解決します。
私たちのアルゴリズムの重要な要素は次のとおりです: i)。
原始LPの1つの最適な基底を特徴付ける除去手順と、
ii) 残りのリソースに適応し、特徴付けられた最適な基準に固執する解決手順。

要約(オリジナル)

We consider the reinforcement learning problem for the constrained Markov decision process (CMDP), which plays a central role in satisfying safety or resource constraints in sequential learning and decision-making. In this problem, we are given finite resources and a MDP with unknown transition probabilities. At each stage, we take an action, collecting a reward and consuming some resources, all assumed to be unknown and need to be learned over time. In this work, we take the first step towards deriving optimal problem-dependent guarantees for the CMDP problems. We derive a logarithmic regret bound, which translates into a $O(\frac{\kappa}{\epsilon}\cdot\log^2(1/\epsilon))$ sample complexity bound, with $\kappa$ being a problem-dependent parameter, yet independent of $\epsilon$. Our sample complexity bound improves upon the state-of-art $O(1/\epsilon^2)$ sample complexity for CMDP problems established in the previous literature, in terms of the dependency on $\epsilon$. To achieve this advance, we develop a new framework for analyzing CMDP problems. To be specific, our algorithm operates in the primal space and we resolve the primal LP for the CMDP problem at each period in an online manner, with \textit{adaptive} remaining resource capacities. The key elements of our algorithm are: i). an eliminating procedure that characterizes one optimal basis of the primal LP, and; ii) a resolving procedure that is adaptive to the remaining resources and sticks to the characterized optimal basis.

arxiv情報

著者 Jiashuo Jiang,Yinyu Ye
発行日 2024-02-26 06:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク