要約
タイトル:再生粒子トンプソンサンプリング
要約:
– この論文は、柔軟なバリエーションのトンプソンサンプリングである再生粒子トンプソンサンプリング(RPTS)を提案している。
– トンプソンサンプリングは、ベイジアンヒューリスティックによる確率バンディット問題の解決策であるが、連続した事後分布の保持の困難さにより実装が難しい。
– 粒子トンプソンサンプリング(PTS)は、連続分布を重み付けされた静止粒子の集合に支持される離散分布に置き換えることによって得られるトンプソンサンプリングの近似である。
– PTSでは、わずかな条件の合わない粒子を除いて、すべての粒子の重みがゼロに収束することが観察される。
– RPTSは、ゼロに収束している適合性の低い粒子を削除し、適合した生存粒子の近くで新しい粒子を再生するというヒューリスティックに基づく。
– 実証的な証拠は、5Gネットワークスライシングを含む代表的なバンディット問題のセット全体にわたるPTSからRPTSへの均一な改善と、RPTSの柔軟性と効果を示している。
要約(オリジナル)
This paper proposes regenerative particle Thompson sampling (RPTS), a flexible variation of Thompson sampling. Thompson sampling itself is a Bayesian heuristic for solving stochastic bandit problems, but it is hard to implement in practice due to the intractability of maintaining a continuous posterior distribution. Particle Thompson sampling (PTS) is an approximation of Thompson sampling obtained by simply replacing the continuous distribution by a discrete distribution supported at a set of weighted static particles. We observe that in PTS, the weights of all but a few fit particles converge to zero. RPTS is based on the heuristic: delete the decaying unfit particles and regenerate new particles in the vicinity of fit surviving particles. Empirical evidence shows uniform improvement from PTS to RPTS and flexibility and efficacy of RPTS across a set of representative bandit problems, including an application to 5G network slicing.
arxiv情報
著者 | Zeyu Zhou,Bruce Hajek,Nakjung Choi,Anwar Walid |
発行日 | 2023-05-08 17:27:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI