Thompson Sampling for Linear Bandit Problems with Normal-Gamma Priors

要約

我々は、有限個の独立した腕を持つ線形バンディット問題に対するトンプソンサンプリングについて考察する。具体的には、ベイズ定式化により、すべての関係するパラメータの環境の不確実性を表現するために、多変量正規ガンマプリオールを考慮する。また、分散分布の5/2-momentが存在するという条件下で、Thompsonサンプリングに対するベイズ後悔則を導出する。

要約(オリジナル)

We consider Thompson sampling for linear bandit problems with finitely many independent arms, where rewards are sampled from normal distributions that are linearly dependent on unknown parameter vectors and with unknown variance. Specifically, with a Bayesian formulation we consider multivariate normal-gamma priors to represent environment uncertainty for all involved parameters. We show that our chosen sampling prior is a conjugate prior to the reward model and derive a Bayesian regret bound for Thompson sampling under the condition that the 5/2-moment of the variance distribution exist.

arxiv情報

著者 Björn Lindenberg,Karl-Olof Lindahl
発行日 2023-03-06 18:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク