Statistical Inference for Temporal Difference Learning with Linear Function Approximation

要約

マルコフ決定プロセス (MDP) における特定のポリシーの価値関数に対する有限サンプル妥当性を備えた統計的推論は、強化学習の信頼性を確保するために重要です。
おそらく政策評価に最も広く使用されているアルゴリズムである時間差分 (TD) 学習は、この目的のための自然なフレームワークとして機能します。この論文では、Polyak-Ruppert 平均化と線形関数近似による TD 学習の一貫性特性を研究し、次の結果を取得します。
既存の結果に比べて 3 つの大幅な改善が見られます。
まず、漸近分散に明示的に依存し、弱い条件下でも成立する、新しいシャープな高次元確率収束保証を導出します。
さらに、文献に記載されているものよりも高速なレートを保証する、凸集合のクラスにわたる洗練された高次元ベリー・エッセン境界を確立します。
最後に、効率的なオンライン計算のために設計された、漸近共分散行列のプラグイン推定器を提案します。
これらの結果により、有限サンプル範囲が保証された、値関数の線形パラメーターの信頼領域と同時信頼区間の構築が可能になります。
数値実験を通じて理論的発見の適用可能性を実証します。

要約(オリジナル)

Statistical inference with finite-sample validity for the value function of a given policy in Markov decision processes (MDPs) is crucial for ensuring the reliability of reinforcement learning. Temporal Difference (TD) learning, arguably the most widely used algorithm for policy evaluation, serves as a natural framework for this purpose.In this paper, we study the consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation, and obtain three significant improvements over existing results. First, we derive a novel sharp high-dimensional probability convergence guarantee that depends explicitly on the asymptotic variance and holds under weak conditions. We further establish refined high-dimensional Berry-Esseen bounds over the class of convex sets that guarantee faster rates than those in the literature. Finally, we propose a plug-in estimator for the asymptotic covariance matrix, designed for efficient online computation. These results enable the construction of confidence regions and simultaneous confidence intervals for the linear parameters of the value function, with guaranteed finite-sample coverage. We demonstrate the applicability of our theoretical findings through numerical experiments.

arxiv情報

著者 Weichen Wu,Gen Li,Yuting Wei,Alessandro Rinaldo
発行日 2024-10-21 15:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク