The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms

要約

$k \geq \sqrt{T}$ と $T$ が時間軸を表す \emph{many-armed} 体制におけるベイズ $k$ 武装バンディット問題を調査します。
当初、多武装バンディット問題に関する最近の文献と合わせて、サブサンプリングが最適なアルゴリズムの設計において重要な役割を果たしていることがわかりました。
従来の UCB アルゴリズムは最適とは言えませんが、UCB フレームワークの下で実行する $\Theta(\sqrt{T})$ アームを選択するサブサンプリング UCB (SS-UCB) はレートの最適化を実現します。
ただし、SS-UCB は理論的には最適なリグレスを約束しているにもかかわらず、経験的に最良のアームを一貫して選択する貪欲なアルゴリズムと比較すると、経験的にパフォーマンスが劣ります。
この観察は、実世界のデータを使用したシミュレーションを通じてコン​​テキスト設定にまで及びます。
私たちの発見は、多アームのコンテキストにおける貪欲なアルゴリズムにとって有益な新しい形式の \emph{自由探索} を示唆しており、基本的にアームの報酬の事前分配に関するテールイベントに関連しています。
この発見は、コンテキストバンディットの文献で最近議論されているように、共変量の変動に関連する自由探索の概念から逸脱しています。
これらの洞察を拡張すると、サブサンプリングされた貪欲なアプローチは、多武装体制内のベルヌーイ盗賊に対してレートの最適化を達成するだけでなく、より広範な分布全体にわたってサブリニアリグレスも達成できることが証明されます。
まとめると、私たちの研究は、多武装体制では実務家が貪欲なアルゴリズムを採用することに大きな価値を見出す可能性があることを示しています。

要約(オリジナル)

We investigate a Bayesian $k$-armed bandit problem in the \emph{many-armed} regime, where $k \geq \sqrt{T}$ and $T$ represents the time horizon. Initially, and aligned with recent literature on many-armed bandit problems, we observe that subsampling plays a key role in designing optimal algorithms; the conventional UCB algorithm is sub-optimal, whereas a subsampled UCB (SS-UCB), which selects $\Theta(\sqrt{T})$ arms for execution under the UCB framework, achieves rate-optimality. However, despite SS-UCB’s theoretical promise of optimal regret, it empirically underperforms compared to a greedy algorithm that consistently chooses the empirically best arm. This observation extends to contextual settings through simulations with real-world data. Our findings suggest a new form of \emph{free exploration} beneficial to greedy algorithms in the many-armed context, fundamentally linked to a tail event concerning the prior distribution of arm rewards. This finding diverges from the notion of free exploration, which relates to covariate variation, as recently discussed in contextual bandit literature. Expanding upon these insights, we establish that the subsampled greedy approach not only achieves rate-optimality for Bernoulli bandits within the many-armed regime but also attains sublinear regret across broader distributions. Collectively, our research indicates that in the many-armed regime, practitioners might find greater value in adopting greedy algorithms.

arxiv情報

著者 Mohsen Bayati,Nima Hamidi,Ramesh Johari,Khashayar Khosravi
発行日 2024-03-20 17:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク