Forced Exploration in Bandit Problems

要約

マルチアーム バンディット (MAB) は、古典的な逐次決定問題です。
ほとんどの作業では報酬分布 (たとえば、制限付き) に関する仮定が必要ですが、実践者は、特に非定常 MAB 問題の場合、問題のモデルを設計するためにこれらの分布に関する情報を取得するのが難しい場合があります。
この論文は、報酬分布に関する情報を使用せずに、実質的なリグレス上限を達成しながら実装できるマルチアーム バンディット アルゴリズムを設計することを目的としています。
この目的を達成するために、貪欲なルールと強制的な探索を交互に行う新しいアルゴリズムを提案します。
私たちの方法はガウス分布、ベルヌーイ分布、その他のサブガウス分布に適用でき、その実装には追加情報は必要ありません。
さまざまな強制探索戦略に対して統一された分析手法を採用し、定常設定および区分定常設定に対する問題依存のリグレス上限を提供します。
さらに、さまざまな報酬分布について、アルゴリズムを一般的なバンディット アルゴリズムと比較します。

要約(オリジナル)

The multi-armed bandit(MAB) is a classical sequential decision problem. Most work requires assumptions about the reward distribution (e.g., bounded), while practitioners may have difficulty obtaining information about these distributions to design models for their problems, especially in non-stationary MAB problems. This paper aims to design a multi-armed bandit algorithm that can be implemented without using information about the reward distribution while still achieving substantial regret upper bounds. To this end, we propose a novel algorithm alternating between greedy rule and forced exploration. Our method can be applied to Gaussian, Bernoulli and other subgaussian distributions, and its implementation does not require additional information. We employ a unified analysis method for different forced exploration strategies and provide problem-dependent regret upper bounds for stationary and piecewise-stationary settings. Furthermore, we compare our algorithm with popular bandit algorithms on different reward distributions.

arxiv情報

著者 Han Qi,Fei Guo,Li Zhu
発行日 2023-12-12 14:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク