要約
急速に変化する状態や不安定な環境は、限られた観察の下で迅速な適応を実行する必要があるオンライン最適化に大きな課題をもたらします。
この論文では、任意の連続する区間 $I$ にわたる最大リグレスを測定する、強力に適応するリグレスの厳密な概念に基づいて、クエリおよびリグレスの最適バンディット アルゴリズムを提供します。
最悪の場合の性質により、ラウンドごとに 1 つのクエリのみが許可される場合、ほぼ線形の $\Omega(|I|^{1-\epsilon})$ リグロング下限が存在します [Daniely el al、ICML 2015]
。
驚くべきことに、ラウンドあたりわずか 2 つのクエリで、$n$ 腕の多腕バンディットに対して $\tilde{O}(\sqrt{n|I|})$ の適応的リ後悔を達成する強適応バンディット学習器 (StABL) を提供します。
限界は厳しく、一般に改善することはできません。
私たちのアルゴリズムは、さまざまなステップサイズの乗法更新スキームと慎重に選択された観測分布を利用して分散を制御します。
さらに、結果を拡張し、バンディット凸最適化設定で最適なアルゴリズムを提供します。
最後に、不安定な環境下や、ハイパーパラメータ最適化のためのアルゴリズム選択などの下流タスクにおいて、アルゴリズムの優れたパフォーマンスを実証します。
要約(オリジナル)
Fast changing states or volatile environments pose a significant challenge to online optimization, which needs to perform rapid adaptation under limited observation. In this paper, we give query and regret optimal bandit algorithms under the strict notion of strongly adaptive regret, which measures the maximum regret over any contiguous interval $I$. Due to its worst-case nature, there is an almost-linear $\Omega(|I|^{1-\epsilon})$ regret lower bound, when only one query per round is allowed [Daniely el al, ICML 2015]. Surprisingly, with just two queries per round, we give Strongly Adaptive Bandit Learner (StABL) that achieves $\tilde{O}(\sqrt{n|I|})$ adaptive regret for multi-armed bandits with $n$ arms. The bound is tight and cannot be improved in general. Our algorithm leverages a multiplicative update scheme of varying stepsizes and a carefully chosen observation distribution to control the variance. Furthermore, we extend our results and provide optimal algorithms in the bandit convex optimization setting. Finally, we empirically demonstrate the superior performance of our algorithms under volatile environments and for downstream tasks, such as algorithm selection for hyperparameter optimization.
arxiv情報
| 著者 | Zhou Lu,Qiuyi Zhang,Xinyi Chen,Fred Zhang,David Woodruff,Elad Hazan | 
| 発行日 | 2024-01-17 15:32:04+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
