Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs

要約

制約付きマルコフ意思決定プロセス (CMDP) フレームワークは、累積報酬を最大化しながら安全性やその他の重要な目標を課すための重要な強化学習アプローチとして浮上しています。
ただし、状態の数が無限になる可能性がある CMDP 環境で効率的に学習する方法については、特に関数近似が値関数に適用される場合に現在も研究中です。
この論文では、$q_{\pi}$-realizability を備えた線形関数近似が与えられた学習問題に取り組みます。ここで、すべてのポリシーの値関数は、既知の特徴マップで線形に表現できます。この設定は、より一般的で難しいことが知られています。
その他の線形設定。
ローカルアクセスモデルを利用して、$\tilde{O}(\text{poly}(d) \epsilon^{-3})$ クエリの後に、高い確率でポリシーを出力する新しい主双対アルゴリズムを提案します。
これは、報酬関数に関して値をほぼ最適化しながら、制約を厳密に満たします。
ここで、$d$ は特徴の次元であり、$\epsilon > 0$ は所定の誤差です。
このアルゴリズムは、慎重に作成されたオフポリシー評価手順に依存して、履歴データを使用してポリシーを評価します。これにより、ポリシーの勾配を通じてポリシーの更新が通知され、サンプルが保存されます。
私たちの知る限り、これは $q_{\pi}$-realizable 設定で CMDP の多項式サンプルの複雑さを達成した最初の結果です。

要約(オリジナル)

The constrained Markov decision process (CMDP) framework emerges as an important reinforcement learning approach for imposing safety or other critical objectives while maximizing cumulative reward. However, the current understanding of how to learn efficiently in a CMDP environment with a potentially infinite number of states remains under investigation, particularly when function approximation is applied to the value functions. In this paper, we address the learning problem given linear function approximation with $q_{\pi}$-realizability, where the value functions of all policies are linearly representable with a known feature map, a setting known to be more general and challenging than other linear settings. Utilizing a local-access model, we propose a novel primal-dual algorithm that, after $\tilde{O}(\text{poly}(d) \epsilon^{-3})$ queries, outputs with high probability a policy that strictly satisfies the constraints while nearly optimizing the value with respect to a reward function. Here, $d$ is the feature dimension and $\epsilon > 0$ is a given error. The algorithm relies on a carefully crafted off-policy evaluation procedure to evaluate the policy using historical data, which informs policy updates through policy gradients and conserves samples. To our knowledge, this is the first result achieving polynomial sample complexity for CMDP in the $q_{\pi}$-realizable setting.

arxiv情報

著者 Tian Tian,Lin F. Yang,Csaba Szepesvári
発行日 2024-06-26 17:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク