要約
離散時間設定と連続時間設定の両方で、平均報酬基準を使用して無限地平線の落ち着きのないバンディット問題を研究します。
基本的な目標は、アームの数 $N$ が増加するにつれて、最適性ギャップの縮小を達成するポリシーを効率的に計算することです。
漸近最適性に関する既存の結果はすべて、複雑で検証が困難な仮定である均一グローバル アトラクター プロパティ (UGAP) に依存しています。
この論文では、あらゆる単一武装政策を元の $N$ 武装問題に対する政策に変換する、一般的なシミュレーションベースのフレームワークである Follow-the-Virtual-Advice を提案します。
これは、各アームでシングルアーム ポリシーをシミュレートし、実際の状態をシミュレートされた状態に向けて慎重に操作することによって行われます。
私たちのフレームワークをインスタンス化して、$O(1/\sqrt{N})$ の最適性ギャップを持つポリシーを生成できます。
離散時間設定では、UGAP に違反するいくつかの問題インスタンスをカバーする、より単純な同期仮定の下で結果が保持されます。
さらに注目すべき点は、連続時間設定では、標準のユニチェーン条件を超える \emph{any} 追加の仮定を必要としないことです。
どちらの設定でも、私たちの研究は、UGAP を必要としない最初の漸近最適性の結果です。
要約(オリジナル)
We study the infinite-horizon restless bandit problem with the average reward criterion, in both discrete-time and continuous-time settings. A fundamental goal is to efficiently compute policies that achieve a diminishing optimality gap as the number of arms, $N$, grows large. Existing results on asymptotic optimality all rely on the uniform global attractor property (UGAP), a complex and challenging-to-verify assumption. In this paper, we propose a general, simulation-based framework, Follow-the-Virtual-Advice, that converts any single-armed policy into a policy for the original $N$-armed problem. This is done by simulating the single-armed policy on each arm and carefully steering the real state towards the simulated state. Our framework can be instantiated to produce a policy with an $O(1/\sqrt{N})$ optimality gap. In the discrete-time setting, our result holds under a simpler synchronization assumption, which covers some problem instances that violate UGAP. More notably, in the continuous-time setting, we do not require \emph{any} additional assumptions beyond the standard unichain condition. In both settings, our work is the first asymptotic optimality result that does not require UGAP.
arxiv情報
著者 | Yige Hong,Qiaomin Xie,Yudong Chen,Weina Wang |
発行日 | 2024-01-16 05:42:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google