要約
我々は、離散時間における無限地平の平均報酬型レストレス・バンディット問題を考察する。我々は、漸進的に大きな腕の部分集合を最適分布に向かわせるように設計された新しいクラスの政策を提案する。本論文では、$N$武装問題に対して、$O(1/sqrt{N})$の最適性ギャップで漸近的に最適であることを示す。我々のアプローチは、最適への収束を保証するためにGAP(Global Attractor Property)に依存するインデックス政策や優先順位政策に焦点を当てた多くの既存の研究や、同期化仮定(Synchronization Assumption)を必要とする最近開発されたシミュレーションに基づく政策とは異なる。
要約(オリジナル)
We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal distribution. We show that our policies are asymptotically optimal with an $O(1/\sqrt{N})$ optimality gap for an $N$-armed problem, assuming only a unichain and aperiodicity assumption. Our approach departs from most existing work that focuses on index or priority policies, which rely on the Global Attractor Property (GAP) to guarantee convergence to the optimum, or a recently developed simulation-based policy, which requires a Synchronization Assumption (SA).
arxiv情報
著者 | Yige Hong,Qiaomin Xie,Yudong Chen,Weina Wang |
発行日 | 2024-10-03 17:37:33+00:00 |
arxivサイト | arxiv_id(pdf) |