要約
この論文では、環境のグローバルな影響によりすべてのアームの平均値が同じようにシフトされる、非定常確率的バンディット設定における新しいベストアーム識別問題を定式化します。
目的は、固定の総予算を前提として、環境変化全体にわたって独自の最適な手段を特定することです。
この設定は、敵対的バンディットまたは破損したバンディットの特殊なケースと見なすことができますが、これらの設定に合わせて調整された既存のソリューションは、このグローバルな影響力の性質を十分に活用していないため、実際にはうまく機能しないことを示します(理論的なものにもかかわらず)
保証します)。
この問題を克服するために、この論文では、地球環境の変化に対処する上で一貫性があり堅牢な新しい選択ポリシーを開発します。
次に、各環境のすべての部門にわたる世界的な変化に関する情報を活用する割り当てポリシー LinLUCB を提案します。
実証テストでは、他の既存の方法と比較して、当社のポリシーが大幅に改善されていることが示されています。
要約(オリジナル)
This paper formulates a new Best-Arm Identification problem in the non-stationary stochastic bandits setting, where the means of all arms are shifted in the same way due to a global influence of the environment. The aim is to identify the unique best arm across environmental change given a fixed total budget. While this setting can be regarded as a special case of Adversarial Bandits or Corrupted Bandits, we demonstrate that existing solutions tailored to those settings do not fully utilise the nature of this global influence, and thus, do not work well in practice (despite their theoretical guarantees). To overcome this issue, in this paper we develop a novel selection policy that is consistent and robust in dealing with global environmental shifts. We then propose an allocation policy, LinLUCB, which exploits information about global shifts across all arms in each environment. Empirical tests depict a significant improvement in our policies against other existing methods.
arxiv情報
著者 | Phurinut Srisawad,Juergen Branke,Long Tran-Thanh |
発行日 | 2024-08-22 17:47:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google