Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits


私たちのアプローチは、最適値への収束を保証する統一グローバル アトラクター プロパティ (UGAP) に依存するインデックス ポリシーや優先順位ポリシー、または同期仮定 (SA) を必要とする最近開発されたシミュレーション ベースのポリシーに焦点を当てたほとんどの既存の研究とは異なります。


We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal distribution. We show that our policies are asymptotically optimal with an $O(1/\sqrt{N})$ optimality gap for an $N$-armed problem, provided that the single-armed MDP is unichain and aperiodic under the optimal single-armed policy. Our approach departs from most existing work that focuses on index or priority policies, which rely on the Uniform Global Attractor Property (UGAP) to guarantee convergence to the optimum, or a recently developed simulation-based policy, which requires a Synchronization Assumption (SA).


著者 Yige Hong,Qiaomin Xie,Yudong Chen,Weina Wang
発行日 2024-06-13 17:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR パーマリンク