要約
この論文では、落ち着きのない多腕バンディット問題に対する一般的な観察モデルを検討します。
プレーヤーの操作は、リソースの制約や環境ノイズ、固有ノイズによりエラーが発生しやすい特定のフィードバック メカニズムに基づく必要があります。
フィードバック/観察の力学に対する一般的な確率モデルを確立することにより、任意の初期信念 (アプリオリ情報) から始まる可算信念状態空間を持つ落ち着きのない盗賊として問題を定式化します。
部分保存則(PCL)を用いた達成可能領域法を無限状態問題に適用し、そのインデックス可能性と優先度インデックス(Whttleインデックス)を分析します。
最後に、有限状態問題に対する Ni\~no-Mora と Bertsimas の AG アルゴリズムを適用できる問題を変換する近似プロセスを提案します。
数値実験により、私たちのアルゴリズムが優れたパフォーマンスを発揮することがわかりました。
要約(オリジナル)
In this paper, we consider a general observation model for restless multi-armed bandit problems. The operation of the player needs to be based on certain feedback mechanism that is error-prone due to resource constraints or environmental or intrinsic noises. By establishing a general probabilistic model for dynamics of feedback/observation, we formulate the problem as a restless bandit with a countable belief state space starting from an arbitrary initial belief (a priori information). We apply the achievable region method with partial conservation law (PCL) to the infinite-state problem and analyze its indexability and priority index (Whittle index). Finally, we propose an approximation process to transform the problem into which the AG algorithm of Ni\~no-Mora and Bertsimas for finite-state problems can be applied to. Numerical experiments show that our algorithm has an excellent performance.
arxiv情報
| 著者 | Keqin Liu,Chengzhong Zhang |
| 発行日 | 2023-07-06 14:56:13+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google