要約
タイトル:Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards
要約:
– $K$-armed bandit問題を研究し、全ての腕の報酬分布が$[0,1]$区間に含まれる場合に、効率的なランダム探索アルゴリズムを設計することが課題であった。
– Thompson samplingの代替手段であるMaillardサンプリングは、sub-Gaussian報酬設定で競合的な後悔保証を達成することが最近示され、オフラインポリシー評価に有用な閉形式の行動確率を保持する。
– 本研究では、KL-MSアルゴリズムを提案し、KL-スタイルのギャップ依存後悔バウンドを達成するためのMaillardサンプリングの自然な拡張を行った。
– Bernoulli報酬の場合にKL-MSが漸近最適であり、最適な腕の期待報酬が$\mu^*$であり、時間ホライズン長が$T$である場合に、最悪の場合の後悔は$O(\sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$の形式であることを示した。
要約(オリジナル)
We study $K$-armed bandit problems where the reward distributions of the arms are all supported on the $[0,1]$ interval. It has been a challenge to design regret-efficient randomized exploration algorithms in this setting. Maillard sampling~\cite{maillard13apprentissage}, an attractive alternative to Thompson sampling, has recently been shown to achieve competitive regret guarantees in the sub-Gaussian reward setting~\cite{bian2022maillard} while maintaining closed-form action probabilities, which is useful for offline policy evaluation. In this work, we propose the Kullback-Leibler Maillard Sampling (KL-MS) algorithm, a natural extension of Maillard sampling for achieving KL-style gap-dependent regret bound. We show that KL-MS enjoys the asymptotic optimality when the rewards are Bernoulli and has a worst-case regret bound of the form $O(\sqrt{\mu^*(1-\mu^*) K T \ln K} + K \ln T)$, where $\mu^*$ is the expected reward of the optimal arm, and $T$ is the time horizon length.
arxiv情報
著者 | Hao Qin,Kwang-Sung Jun,Chicheng Zhang |
発行日 | 2023-04-28 17:15:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI