Best Arm Identification with Minimal Regret

要約

責任ある実験を必要とする現実世界のアプリケーションを動機として、後悔を最小限に抑えた最良のアーム識別 (BAI) の問題を導入します。
この多腕盗賊問題の革新的な変種は、最も普遍的な 2 つの目的、後悔の最小化と BAI をエレガントに融合させたものです。
より正確には、エージェントの目標は、停止時間までの累積後悔を最小限に抑えながら、規定の信頼レベル $\delta$ で最適なアームを特定することです。
単一パラメータの指数分布族の分布に焦点を当て、情報理論的手法を活用して、予想される累積後悔率のインスタンス依存の下限を確立します。
さらに、我々は、固定信頼BAIにおける累積後悔とサンプルの複雑さの間の緊張を強調する、興味深い不可能性の結果を提示します。
補完的に、信頼水準がゼロに近づく傾向にあるため、漸近的な最適性を達成する Double KL-UCB アルゴリズムを設計および分析します。
特に、このアルゴリズムは 2 つの異なる信頼限界を使用して、ランダム化された方法でアームの選択をガイドします。
私たちの調査結果は、後悔の最小化とBAIの間の固有の関係についての新たな視点を明らかにしています。

要約(オリジナル)

Motivated by real-world applications that necessitate responsible experimentation, we introduce the problem of best arm identification (BAI) with minimal regret. This innovative variant of the multi-armed bandit problem elegantly amalgamates two of its most ubiquitous objectives: regret minimization and BAI. More precisely, the agent’s goal is to identify the best arm with a prescribed confidence level $\delta$, while minimizing the cumulative regret up to the stopping time. Focusing on single-parameter exponential families of distributions, we leverage information-theoretic techniques to establish an instance-dependent lower bound on the expected cumulative regret. Moreover, we present an intriguing impossibility result that underscores the tension between cumulative regret and sample complexity in fixed-confidence BAI. Complementarily, we design and analyze the Double KL-UCB algorithm, which achieves asymptotic optimality as the confidence level tends to zero. Notably, this algorithm employs two distinct confidence bounds to guide arm selection in a randomized manner. Our findings elucidate a fresh perspective on the inherent connections between regret minimization and BAI.

arxiv情報

著者 Junwen Yang,Vincent Y. F. Tan,Tianyuan Jin
発行日 2024-09-27 16:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク