Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors

要約

トンプソン サンプリング (TS) は、確率的マルチアーム バンディット問題を解決するための最も一般的かつ初期のアルゴリズムの 1 つです。
$\alpha$-TS という名前の TS のバリアントを検討します。ここでは、標準の事後分布の代わりに分数または $\alpha$-事後分布 ($\alpha\in(0,1)$) を使用します。
$\alpha$-事後分布を計算するには、標準事後分布の定義の尤度が係数 $\alpha$ で調整されます。
$\alpha$-TS の場合、インスタンス依存の $\mathcal{O}\left(\sum_{k \neq i^*} \Delta_k\left(\frac{\log(T)}{C(\
alpha)\Delta_k^2} + \frac{1}{2} \right)\right)$ およびインスタンスに依存しない $\mathcal{O}(\sqrt{KT\log K})$ 頻度主義の後悔限界は非常に軽度です
事前分布と報酬分布の条件。ここで、$\Delta_k$ は $k^{th}$ と最良のアームの真の平均報酬間のギャップ、$C(\alpha)$ は既知の定数です。
サブガウス族モデルと指数関数族モデルは両方とも、報酬分布に関する一般条件を満たしています。
事前分布に関する条件では、その密度が正、連続、および有界であることだけが必要です。
また、改良された UCB の上限と一致する (定数まで) 別のインスタンス依存のリグレス上限も確立します [Auer and Ortner、2010]。
私たちのリグレス分析は、非漸近濃度分析における最近の理論的発展と $\alpha$ 事後分布に対するバーンスタイン・フォン・ミーゼス型の結果を慎重に組み合わせたものです。
さらに、私たちの分析では、閉形式事後分布や共役事前分布などの追加の構造特性は必要ありません。

要約(オリジナル)

Thompson sampling (TS) is one of the most popular and earliest algorithms to solve stochastic multi-armed bandit problems. We consider a variant of TS, named $\alpha$-TS, where we use a fractional or $\alpha$-posterior ($\alpha\in(0,1)$) instead of the standard posterior distribution. To compute an $\alpha$-posterior, the likelihood in the definition of the standard posterior is tempered with a factor $\alpha$. For $\alpha$-TS we obtain both instance-dependent $\mathcal{O}\left(\sum_{k \neq i^*} \Delta_k\left(\frac{\log(T)}{C(\alpha)\Delta_k^2} + \frac{1}{2} \right)\right)$ and instance-independent $\mathcal{O}(\sqrt{KT\log K})$ frequentist regret bounds under very mild conditions on the prior and reward distributions, where $\Delta_k$ is the gap between the true mean rewards of the $k^{th}$ and the best arms, and $C(\alpha)$ is a known constant. Both the sub-Gaussian and exponential family models satisfy our general conditions on the reward distribution. Our conditions on the prior distribution just require its density to be positive, continuous, and bounded. We also establish another instance-dependent regret upper bound that matches (up to constants) to that of improved UCB [Auer and Ortner, 2010]. Our regret analysis carefully combines recent theoretical developments in the non-asymptotic concentration analysis and Bernstein-von Mises type results for the $\alpha$-posterior distribution. Moreover, our analysis does not require additional structural properties such as closed-form posteriors or conjugate priors.

arxiv情報

著者 Prateek Jaiswal,Debdeep Pati,Anirban Bhattacharya,Bani K. Mallick
発行日 2023-09-12 16:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC, math.ST, stat.ML, stat.TH パーマリンク