A Policy Gradient Method for Confounded POMDPs

要約

この論文では、オフライン設定での連続状態および観測空間を伴う交絡部分観測可能マルコフ決定プロセス (POMDP) のための政策勾配法を提案します。
我々はまず、オフラインデータを使用してPOMDPの下で履歴に依存する政策勾配をノンパラメトリックに推定するための新しい同定結果を確立します。
この識別により、一連の条件付きモーメント制限を解決し、ポリシー勾配を推定するために一般関数近似による最小-最大学習手順を採用することが可能になります。
次に、条件付きモーメント制限を解く際のサンプル サイズ、期間の長さ、集中性係数、および不適切な姿勢の尺度に関して、事前に指定されたポリシー クラスにわたって勾配を均一に推定するための有限サンプルの非漸近限界を提供します。
最後に、提案された勾配推定を勾配上昇アルゴリズムに展開することにより、いくつかの技術的条件下で履歴に依存した最適なポリシーを見つける際の、提案されたアルゴリズムの大域的収束を示します。
私たちの知る限り、これはオフライン設定下で POMDP のポリシー勾配法を研究した最初の研究です。

要約(オリジナル)

In this paper, we propose a policy gradient method for confounded partially observable Markov decision processes (POMDPs) with continuous state and observation spaces in the offline setting. We first establish a novel identification result to non-parametrically estimate any history-dependent policy gradient under POMDPs using the offline data. The identification enables us to solve a sequence of conditional moment restrictions and adopt the min-max learning procedure with general function approximation for estimating the policy gradient. We then provide a finite-sample non-asymptotic bound for estimating the gradient uniformly over a pre-specified policy class in terms of the sample size, length of horizon, concentratability coefficient and the measure of ill-posedness in solving the conditional moment restrictions. Lastly, by deploying the proposed gradient estimation in the gradient ascent algorithm, we show the global convergence of the proposed algorithm in finding the history-dependent optimal policy under some technical conditions. To the best of our knowledge, this is the first work studying the policy gradient method for POMDPs under the offline setting.

arxiv情報

著者 Mao Hong,Zhengling Qi,Yanxun Xu
発行日 2023-05-26 16:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, math.ST, stat.ME, stat.ML, stat.TH パーマリンク