A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms

要約

この論文では、ランダム化された多腕バンディット アルゴリズムのリグレット バウンドを導出するための一般的な方法論を提案します。
これは、対数的後悔を証明するために、各アームのサンプリング確率と分布族の一連の十分条件をチェックすることから成ります。
直接的な適用として、2 つの有名なバンディット アルゴリズム、Minimum Empirical Divergence (MED) と Thompson Sampling (TS) を、単一パラメーター指数族、ガウス分布、有界分布、またはモーメントでいくつかの条件を満たす分布を含む分布のさまざまなモデルの下で再検討します。
.
特に、MED がこれらすべてのモデルに対して漸近的に最適であることを証明しますが、最適性が既に知られているいくつかの TS アルゴリズムの簡単な後悔分析も提供します。
次に、制限のある h モーメントを持つ制限のない報酬分布のいくつかのファミリに適応した新しいノンパラメトリック TS アルゴリズム (h-NPTS) を分析することにより、アプローチの興味深い点をさらに説明します。
このモデルは、たとえば、分散が既知の定数によって上限が制限されている分布のいくつかのノンパラメトリック ファミリをキャプチャできます。

要約(オリジナル)

In this paper we propose a general methodology to derive regret bounds for randomized multi-armed bandit algorithms. It consists in checking a set of sufficient conditions on the sampling probability of each arm and on the family of distributions to prove a logarithmic regret. As a direct application we revisit two famous bandit algorithms, Minimum Empirical Divergence (MED) and Thompson Sampling (TS), under various models for the distributions including single parameter exponential families, Gaussian distributions, bounded distributions, or distributions satisfying some conditions on their moments. In particular, we prove that MED is asymptotically optimal for all these models, but also provide a simple regret analysis of some TS algorithms for which the optimality is already known. We then further illustrate the interest of our approach, by analyzing a new Non-Parametric TS algorithm (h-NPTS), adapted to some families of unbounded reward distributions with a bounded h-moment. This model can for instance capture some non-parametric families of distributions whose variance is upper bounded by a known constant.

arxiv情報

著者 Dorian Baudry,Kazuya Suzuki,Junya Honda
発行日 2023-03-10 16:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク