要約
私たちは、確率的設定と敵対的設定の両方で同時に最適に実行する適応型マルチアーム バンディット アルゴリズムを設計する問題を研究します (多くの場合、両方の世界の最善の保証として知られています)。
最近の一連の研究では、適切に構成および分析すると、もともと敵対的な設定用に設計された Follow-the- Regularized-Leader (FTRL) アルゴリズムが、実際には確率的な設定にも最適に適応できることが示されています。
ただし、そのような結果は、1 つの固有の最適アームが存在するという仮定に大きく依存しています。
最近、Ito (2021) は、$\frac{1}{2}$-Tsallis エントロピー正則化装置を使用して、特定の FTRL アルゴリズムに対するそのような望ましくない一意性の仮定を削除する最初の一歩を踏み出しました。
この研究では、この結果を大幅に改善して一般化し、広範な正則化機能と新しい学習率スケジュールを備えた FTRL には一意性が不要であることを示しました。
一部の正則化者については、一意性が維持されている場合でも、リグレス限界は以前の結果よりも改善されます。
さらに、探索と活用の分離問題への結果の適用を提供し、私たちの技術が広く適用可能であることを実証します。
要約(オリジナル)
We study the problem of designing adaptive multi-armed bandit algorithms that perform optimally in both the stochastic setting and the adversarial setting simultaneously (often known as a best-of-both-world guarantee). A line of recent works shows that when configured and analyzed properly, the Follow-the-Regularized-Leader (FTRL) algorithm, originally designed for the adversarial setting, can in fact optimally adapt to the stochastic setting as well. Such results, however, critically rely on an assumption that there exists one unique optimal arm. Recently, Ito (2021) took the first step to remove such an undesirable uniqueness assumption for one particular FTRL algorithm with the $\frac{1}{2}$-Tsallis entropy regularizer. In this work, we significantly improve and generalize this result, showing that uniqueness is unnecessary for FTRL with a broad family of regularizers and a new learning rate schedule. For some regularizers, our regret bounds also improve upon prior results even when uniqueness holds. We further provide an application of our results to the decoupled exploration and exploitation problem, demonstrating that our techniques are broadly applicable.
arxiv情報
著者 | Tiancheng Jin,Junyan Liu,Haipeng Luo |
発行日 | 2023-10-26 17:21:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google