VITS : Variational Inference Thomson Sampling for contextual bandits

要約

このペーパーでは、コンテキスト バンディット用のトンプソン サンプリング (TS) アルゴリズムのバリアントを導入し、分析します。
従来の TS では各ラウンドで現在の事後分布からのサンプルが必要ですが、これは通常は困難です。
この問題を回避するには、近似推論手法を使用して、事後分布に近い分布を持つサンプルを提供します。
ただし、現在の近似手法では、推定が不十分 (ラプラス近似) になるか、計算コストが高くなる可能性があります (MCMC 法、アンサンブル サンプリングなど)。
この論文では、ガウス変分推論に基づいた新しいアルゴリズム、変分推論トンプソン サンプリング VITS を提案します。
このスキームは、サンプリングが容易で計算効率が高い強力な事後近似を提供するため、TS にとって理想的な選択肢となります。
さらに、VITS が線形コンテキスト バンディットの従来の TS と同じ次元とラウンド数の次の線形リグレスバウンドを達成することを示します。
最後に、合成データセットと現実世界のデータセットの両方に対する VITS の有効性を実験的に示します。

要約(オリジナル)

In this paper, we introduce and analyze a variant of the Thompson sampling (TS) algorithm for contextual bandits. At each round, traditional TS requires samples from the current posterior distribution, which is usually intractable. To circumvent this issue, approximate inference techniques can be used and provide samples with distribution close to the posteriors. However, current approximate techniques yield to either poor estimation (Laplace approximation) or can be computationally expensive (MCMC methods, Ensemble sampling…). In this paper, we propose a new algorithm, Varational Inference Thompson sampling VITS, based on Gaussian Variational Inference. This scheme provides powerful posterior approximations which are easy to sample from, and is computationally efficient, making it an ideal choice for TS. In addition, we show that VITS achieves a sub-linear regret bound of the same order in the dimension and number of round as traditional TS for linear contextual bandit. Finally, we demonstrate experimentally the effectiveness of VITS on both synthetic and real world datasets.

arxiv情報

著者 Pierre Clavier,Tom Huix,Alain Durmus
発行日 2023-07-19 17:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク