The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits

要約

マルチパス ストリーミング アルゴリズム ($O(\frac{n
}{\Delta^2})$ には $\Omega(\frac{\log{(1/\Delta)}}{\log\log{(1/\Delta)}})$ パスが必要です。
ここで、$n$ はアームの数、$\Delta$ は最高のアームと 2 番目に優れたアームの間の報酬の差です。
私たちの結果は、Jin らの $O(\log(\frac{1}{\Delta}))$-pass アルゴリズムと一致します。
[ICML’21] (下位項まで) $O(1)$ メモリのみを使用し、Assadi と Wang によって提起された未解決の質問に答えます [STOC’20]。

要約(オリジナル)

We give a near-optimal sample-pass trade-off for pure exploration in multi-armed bandits (MABs) via multi-pass streaming algorithms: any streaming algorithm with sublinear memory that uses the optimal sample complexity of $O(\frac{n}{\Delta^2})$ requires $\Omega(\frac{\log{(1/\Delta)}}{\log\log{(1/\Delta)}})$ passes. Here, $n$ is the number of arms and $\Delta$ is the reward gap between the best and the second-best arms. Our result matches the $O(\log(\frac{1}{\Delta}))$-pass algorithm of Jin et al. [ICML’21] (up to lower order terms) that only uses $O(1)$ memory and answers an open question posed by Assadi and Wang [STOC’20].

arxiv情報

著者 Sepehr Assadi,Chen Wang
発行日 2024-06-25 17:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク