Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set

要約

$ Q $ -Learningは、最も基本的な強化学習アルゴリズムの1つです。
線形関数近似(つまり、線形$ q $ -Learning)を使用した$ q $ -Learningは、最近の作品Meyn(2024)が線形$ qの反復液のほぼ確実な境界を確立するまで、可能性のある発散に苦しむと広く信じられています。
$ -Learning。
この成功に基づいて、このペーパーでは、線形$ Q $ eLearningの最初の$ l^2 $収束率(境界セットへ)をさらに確立します。
Meyn(2024)と同様に、元の線形$ Q $ -Learningアルゴリズムを変更せず、Bellmanの完全性の仮定を行わず、行動ポリシーにほぼ最適性の仮定を行いません。
必要なのは、適応温度の$ \ epsilon $ -SOFTMAXの動作ポリシーだけです。
分析の鍵は、急速に変化する遷移関数を備えたマルコフのノイズの下での確率的近似の一般的な結果です。
また、サイド製品として、この一般的な結果を使用して、$ \ epsilon $ -softmaxの動作ポリシーを使用して、$ l^2 $ $ convergenceレートを$ \ epsilon $ -softmax行動ポリシーで確立します。
加重ベルマン最適性演算子の。

要約(オリジナル)

$Q$-learning is one of the most fundamental reinforcement learning algorithms. It is widely believed that $Q$-learning with linear function approximation (i.e., linear $Q$-learning) suffers from possible divergence until the recent work Meyn (2024) which establishes the ultimate almost sure boundedness of the iterates of linear $Q$-learning. Building on this success, this paper further establishes the first $L^2$ convergence rate of linear $Q$-learning iterates (to a bounded set). Similar to Meyn (2024), we do not make any modification to the original linear $Q$-learning algorithm, do not make any Bellman completeness assumption, and do not make any near-optimality assumption on the behavior policy. All we need is an $\epsilon$-softmax behavior policy with an adaptive temperature. The key to our analysis is the general result of stochastic approximations under Markovian noise with fast-changing transition functions. As a side product, we also use this general result to establish the $L^2$ convergence rate of tabular $Q$-learning with an $\epsilon$-softmax behavior policy, for which we rely on a novel pseudo-contraction property of the weighted Bellman optimality operator.

arxiv情報

著者 Xinyu Liu,Zixuan Xie,Shangtong Zhang
発行日 2025-02-24 16:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク