Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation

要約

ウィトルインデックス政策は、難解なレストレス・マルチ・アームド・バンディッツ(RMAB)問題に対する発見的手法である。これは漸近的に最適であることが証明されているが、Whittle指標を見つけることは依然として困難である。本論文では、ニューラルネットワーク関数近似を用いたRMABのためのWhittle指数に基づくQ学習アルゴリズムであるNeural-Q-Whittleを紹介する。これは、Q関数値が速い時間スケールで更新され、Whittle指数が遅い時間スケールで更新される非線形2時間スケール確率的近似の例である。ディープQ-ラーニングの経験的な成功にもかかわらず、ニューラルネットワークと2タイムスケールQ-ラーニングを結合したNeural-Q-Whittleの非漸近的収束率はほとんど不明なままである。本稿では、マルコフ連鎖からデータを生成し、Q関数をReLUニューラルネットワークで近似するNeural-Q-Whittleの有限時間解析を行う。本解析では、リアプノフドリフトアプローチを活用して2つの連成パラメータの進化を捉え、さらに、価値関数近似の非線形性を利用して近似誤差を特徴付ける。これらを組み合わせることで、$mathcal{O}(1/k^{2/3})$の収束率を持つNeural-Q-Whittleが得られる。

要約(オリジナル)

Whittle index policy is a heuristic to the intractable restless multi-armed bandits (RMAB) problem. Although it is provably asymptotically optimal, finding Whittle indices remains difficult. In this paper, we present Neural-Q-Whittle, a Whittle index based Q-learning algorithm for RMAB with neural network function approximation, which is an example of nonlinear two-timescale stochastic approximation with Q-function values updated on a faster timescale and Whittle indices on a slower timescale. Despite the empirical success of deep Q-learning, the non-asymptotic convergence rate of Neural-Q-Whittle, which couples neural networks with two-timescale Q-learning largely remains unclear. This paper provides a finite-time analysis of Neural-Q-Whittle, where data are generated from a Markov chain, and Q-function is approximated by a ReLU neural network. Our analysis leverages a Lyapunov drift approach to capture the evolution of two coupled parameters, and the nonlinearity in value function approximation further requires us to characterize the approximation error. Combing these provide Neural-Q-Whittle with $\mathcal{O}(1/k^{2/3})$ convergence rate, where $k$ is the number of iterations.

arxiv情報

著者 Guojun Xiong,Jian Li
発行日 2023-10-03 15:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク