Finite-Time Analysis of Natural Actor-Critic for POMDPs

要約

大きな状態空間、または可算無限の状態空間を持つ部分的に観測されたマルコフ決定プロセス (POMDP) の強化学習問題を検討します。この場合、コントローラーは、基礎となる制御されたマルコフ連鎖のノイズのある観測のみにアクセスできます。
ポリシーのパラメータ化には有限の内部メモリを使用し、ポリシー評価にはマルチステップの時間差分学習アルゴリズムを使用する、自然なアクター批判手法を検討します。
我々は、我々の知る限り、関数近似のもとで部分的に観測されたシステムに対するアクタークリティカル法の非漸近的大域収束を初めて確立した。
特に、MDP でも発生する関数近似と統計誤差に加えて、有限状態コントローラーの使用による誤差を明示的に特徴付けます。
この追加誤差は、有限状態コントローラーを使用した場合の、POMDP の従来の信念状態と隠れ状態の事後分布の間の合計変動距離の観点から記述されます。
さらに、スライディング ブロック コントローラーの場合、より大きなブロック サイズを使用することで、この誤差を小さくできることを示します。

要約(オリジナル)

We consider the reinforcement learning problem for partially observed Markov decision processes (POMDPs) with large or even countably infinite state spaces, where the controller has access to only noisy observations of the underlying controlled Markov chain. We consider a natural actor-critic method that employs a finite internal memory for policy parameterization, and a multi-step temporal difference learning algorithm for policy evaluation. We establish, to the best of our knowledge, the first non-asymptotic global convergence of actor-critic methods for partially observed systems under function approximation. In particular, in addition to the function approximation and statistical errors that also arise in MDPs, we explicitly characterize the error due to the use of finite-state controllers. This additional error is stated in terms of the total variation distance between the traditional belief state in POMDPs and the posterior distribution of the hidden state when using a finite-state controller. Further, we show that this error can be made small in the case of sliding-block controllers by using larger block sizes.

arxiv情報

著者 Semih Cayci,Niao He,R. Srikant
発行日 2023-07-19 14:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク