Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set


$ Q $ -Learningは、最も基本的な強化学習アルゴリズムの1つです。
線形関数近似(つまり、線形$ q $ -Learning)を使用した$ q $ -Learningは、最近の作品Meyn(2024)が線形$ qの反復液のほぼ確実な境界を確立するまで、可能性のある発散に苦しむと広く信じられています。
$ -Learning。
この成功に基づいて、このペーパーでは、線形$ Q $ eLearningの最初の$ l^2 $収束率(境界セットへ)をさらに確立します。
Meyn(2024)と同様に、元の線形$ Q $ -Learningアルゴリズムを変更せず、Bellmanの完全性の仮定を行わず、行動ポリシーにほぼ最適性の仮定を行いません。
必要なのは、適応温度の$ \ epsilon $ -SOFTMAXの動作ポリシーだけです。
また、サイド製品として、この一般的な結果を使用して、$ \ epsilon $ -softmaxの動作ポリシーを使用して、$ l^2 $ $ convergenceレートを$ \ epsilon $ -softmax行動ポリシーで確立します。


$Q$-learning is one of the most fundamental reinforcement learning algorithms. It is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence until the recent work Meyn (2024) which establishes the ultimate almost sure boundedness of the iterates of linear $Q$-learning. Building on this success, this paper further establishes the first $L^2$ convergence rate of linear $Q$-learning iterates (to a bounded set). Similar to Meyn (2024), we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.


著者 Xinyu Liu,Zixuan Xie,Shangtong Zhang
発行日 2025-02-24 16:39:27+00:00
arxivサイト arxiv_id(pdf)

