Optimistic Planning by Regularized Dynamic Programming

要約

標準的な近似値反復手順の更新に正則化を追加するというアイデアに基づいて、無限期間割引マルコフ決定プロセスにおける楽観的計画のための新しい方法を提案します。
この手法により、近似動的計画法の既存の分析で通常必要とされる縮約と単調性の引数を回避できます。特に、線形関数近似を使用した MDP で最小二乗手順を介して推定された近似遷移関数を使用できます。
この方法を使用して、割引された線形カーネル MDP で最適に近いポリシーを単一の経験ストリームから学習するための計算効率の高いアルゴリズムを提供し、最適に近い統計的保証を達成することを示します。

要約(オリジナル)

We propose a new method for optimistic planning in infinite-horizon discounted Markov decision processes based on the idea of adding regularization to the updates of an otherwise standard approximate value iteration procedure. This technique allows us to avoid contraction and monotonicity arguments that are typically required by existing analyses of approximate dynamic programming methods, and in particular to use approximate transition functions estimated via least-squares procedures in MDPs with linear function approximation. We use our method to provide a computationally efficient algorithm for learning near-optimal policies in discounted linear kernel MDPs from a single stream of experience, and show that it achieves near-optimal statistical guarantees.

arxiv情報

著者 Antoine Moulin,Gergely Neu
発行日 2023-02-27 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク