The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise

要約

確率的近似は、確率的勾配降下法や時間差分学習などを含め、ベクトルを反復的、増分的、確率的に更新するアルゴリズムのクラスです。
確率的近似アルゴリズムを解析する際の基本的な課題の 1 つは、その安定性を確立すること、つまり、確率的ベクトルの反復がほぼ確実に制限されていることを示すことです。
この論文では、安定性を高めるために有名なボルカー・マイン定理をマーチンゲール差分ノイズ設定からマルコフノイズ設定に拡張します。これにより、強化学習、特に線形関数近似と適格性を備えたオフポリシー強化学習アルゴリズムでの適用性が大幅に向上します。
跡。
私たちの分析の中心となるのは、いくつかの関数の漸近変化率の減少です。これは、強力な大数の法則と一般的に使用される V4 リアプノフ ドリフト条件の両方によって暗示されており、マルコフ連鎖が有限で既約である場合には自明のことです。

要約(オリジナル)

Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of strong law of large numbers and a commonly used V4 Lyapunov drift condition and trivially holds if the Markov chain is finite and irreducible.

arxiv情報

著者 Shuze Liu,Shuhang Chen,Shangtong Zhang
発行日 2024-06-07 13:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク