Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set

要約

$ Q $ -Learningは、最も基本的な強化学習アルゴリズムの1つです。
以前は、線形関数近似(つまり、線形$ q $ -Learning)を備えた$ q $ -Learningが発散の可能性に苦しんでいると広く信じられています。
代わりに、このペーパーでは、線形$ q $ eLALENINGの最初の$ l^2 $収束率を確立します。
特に、元の線形$ q $ -Learningアルゴリズムを変更することはなく、Bellmanの完全性の仮定を行わず、行動ポリシーに最適に近い仮定を立てません。
必要なのは、適応温度の$ \ epsilon $ -SOFTMAXの動作ポリシーだけです。
分析の鍵は、急速に変化する遷移関数を備えたマルコフのノイズの下での確率的近似の一般的な結果です。
また、サイド製品として、この一般的な結果を使用して、$ \ epsilon $ -softmaxの動作ポリシーを使用して、$ l^2 $ $ convergenceレートを$ \ epsilon $ -softmax行動ポリシーで確立します。
加重ベルマン最適性演算子の。

要約(オリジナル)

$Q$-learning is one of the most fundamental reinforcement learning algorithms. Previously, it is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence. This paper instead establishes the first $L^2$ convergence rate of linear $Q$-learning to a bounded set. Notably, we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.

arxiv情報

著者 Xinyu Liu,Zixuan Xie,Shangtong Zhang
発行日 2025-01-31 16:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク