要約
マルコフチェーンは、統計的な機械学習の基本であり、マルコフチェーンモンテカルロ(MCMC)サンプリングや時間的差異(TD)学習(RL)などの主要な方法論を支えています。
それらの広範な使用を考えると、収束、不確実性、および安定性に関する厳格な確率的保証を確立することが重要です。
この作業では、マルコフチェーンのベクトルおよびマトリックス値関数の新しい、高次元濃度の不平等とベリーエッシーンの境界を開発し、従属データを処理するための既存の理論ツールの重要な制限に対処します。
これらの結果を活用して、RLのポリシー評価に広く使用されている方法であるTD学習アルゴリズムを分析します。
私たちの分析は、漸近的分散を対数因子に合わせて一致させる鋭い高確率の一貫性保証をもたらします。
さらに、凸距離で測定されたTD推定器のガウス近似のために、$ o(t^{ – \ frac {1} {4} {4}} \ log t)$分布収束率を確立します。
これらの調査結果は、RLアルゴリズムの統計的推論に関する新しい洞察を提供し、古典的な確率的近似理論と最新の強化学習アプリケーションの間のギャップを埋めます。
要約(オリジナル)
Markov chains are fundamental to statistical machine learning, underpinning key methodologies such as Markov Chain Monte Carlo (MCMC) sampling and temporal difference (TD) learning in reinforcement learning (RL). Given their widespread use, it is crucial to establish rigorous probabilistic guarantees on their convergence, uncertainty, and stability. In this work, we develop novel, high-dimensional concentration inequalities and Berry-Esseen bounds for vector- and matrix-valued functions of Markov chains, addressing key limitations in existing theoretical tools for handling dependent data. We leverage these results to analyze the TD learning algorithm, a widely used method for policy evaluation in RL. Our analysis yields a sharp high-probability consistency guarantee that matches the asymptotic variance up to logarithmic factors. Furthermore, we establish a $O(T^{-\frac{1}{4}}\log T)$ distributional convergence rate for the Gaussian approximation of the TD estimator, measured in convex distance. These findings provide new insights into statistical inference for RL algorithms, bridging the gaps between classical stochastic approximation theory and modern reinforcement learning applications.
arxiv情報
著者 | Weichen Wu,Yuting Wei,Alessandro Rinaldo |
発行日 | 2025-02-19 15:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google