A Tale of Sampling and Estimation in Discounted Reinforcement Learning

要約

【タイトル】割引報酬学習におけるサンプリングと推定の物語
【要約】
・割引報酬学習において最も重要な問題は、マルコフ報酬過程の定常分布下での関数の平均値を推定することであり、例えば方策評価における期待リターンや方策最適化における方策勾配がこれに当たる。
・実際には、これらの推定値は、マルコフプロセスの混合特性を無視した有限時間のエピソードサンプリングによって得られる。
・現実の設定と理想的な設定の間の不一致が推定にどのように影響するか、そしてエピソードサンプリングの落とし穴と最適な方法についての形式的な研究がない。
・本論文では、マルコフプロセスの混合特性と割引率との推定誤差を明示的に関連付ける、割引平均推定問題におけるミニマックス下限を示す。
・そして、実践でよく使用される有限時間推定器を含む、注目すべき推定器群とそれに対応するサンプリング手順の統計分析を提供する。
・重要なことに、マルコフプロセスの割引カーネルから直接サンプリングすることによって平均値を推定することは、エピソードの時間を慎重に調整することなく下限と一致する魅力的な統計的特性を持っていることを示す。

要約(オリジナル)

The most relevant problems in discounted reinforcement learning involve estimating the mean of a function under the stationary distribution of a Markov reward process, such as the expected return in policy evaluation, or the policy gradient in policy optimization. In practice, these estimates are produced through a finite-horizon episodic sampling, which neglects the mixing properties of the Markov process. It is mostly unclear how this mismatch between the practical and the ideal setting affects the estimation, and the literature lacks a formal study on the pitfalls of episodic sampling, and how to do it optimally. In this paper, we present a minimax lower bound on the discounted mean estimation problem that explicitly connects the estimation error with the mixing properties of the Markov process and the discount factor. Then, we provide a statistical analysis on a set of notable estimators and the corresponding sampling procedures, which includes the finite-horizon estimators often used in practice. Crucially, we show that estimating the mean by directly sampling from the discounted kernel of the Markov process brings compelling statistical properties w.r.t. the alternative estimators, as it matches the lower bound without requiring a careful tuning of the episode horizon.

arxiv情報

著者 Alberto Maria Metelli,Mirco Mutti,Marcello Restelli
発行日 2023-04-14 07:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク