要約
私たちは、時間の関数としての報酬に関する高等階級の仮定によって捉えられるように、報酬が滑らかに変化する $K$ 武装の非定常バンディット モデルを研究します。
このような滑らかな変化は、高次指数 $\beta$ と係数 $\lambda$ によってパラメータ化されます。
この一般モデルのさまざまなサブケースが個別に研究されていますが、最初にすべての $K,\beta,\lambda$ に対して一般的に最小動的後悔率を確立します。
次に、$\beta,\lambda$ の知識がなくても、この最適な動的リグレアメントが適応的に達成できることを示します。
対照的に、パラメーターの知識があっても、上限は以前は限られたレジーム $\beta\leq 1$ と $\beta=2$ についてのみ知られていました (Slivkins, 2014; Krishnamurthy and Gopalan, 2021; Manegueu et al., 2021; Jia
ら、2023)。
したがって、私たちの研究は、これらの異なる文献のスレッドによって提起された未解決の疑問を解決します。
また、非定常バンディットにおけるギャップ依存のより速い後悔率の達成の問題も研究します。
このようなレートは一般に不可能であることが長い間知られていますが (Garivier and Moulines, 2011)、安全なアームが認められる環境では (Suk and Kpotufe, 2022)、 $\sqrt{
T}$。
この方向におけるこれまでの研究は、定常期間にわたって合計した通常の対数リグレス限界を達成することに焦点を当てていましたが、今回の新しいギャップ依存率は、対数限界さえ悲観的である非定常性の新しい楽観的な領域を明らかにしています。
新しいギャップ依存レートがタイトであり、その達成可能性 (つまり、安全なアームによって可能になる) が、滑らかな上位クラス モデル内で驚くほど単純かつ明確な特徴付けを持っていることを示します。
要約(オリジナル)
We study a $K$-armed non-stationary bandit model where rewards change smoothly, as captured by H\'{o}lder class assumptions on rewards as functions of time. Such smooth changes are parametrized by a H\'{o}lder exponent $\beta$ and coefficient $\lambda$. While various sub-cases of this general model have been studied in isolation, we first establish the minimax dynamic regret rate generally for all $K,\beta,\lambda$. Next, we show this optimal dynamic regret can be attained adaptively, without knowledge of $\beta,\lambda$. To contrast, even with parameter knowledge, upper bounds were only previously known for limited regimes $\beta\leq 1$ and $\beta=2$ (Slivkins, 2014; Krishnamurthy and Gopalan, 2021; Manegueu et al., 2021; Jia et al.,2023). Thus, our work resolves open questions raised by these disparate threads of the literature. We also study the problem of attaining faster gap-dependent regret rates in non-stationary bandits. While such rates are long known to be impossible in general (Garivier and Moulines, 2011), we show that environments admitting a safe arm (Suk and Kpotufe, 2022) allow for much faster rates than the worst-case scaling with $\sqrt{T}$. While previous works in this direction focused on attaining the usual logarithmic regret bounds, as summed over stationary periods, our new gap-dependent rates reveal new optimistic regimes of non-stationarity where even the logarithmic bounds are pessimistic. We show our new gap-dependent rate is tight and that its achievability (i.e., as made possible by a safe arm) has a surprisingly simple and clean characterization within the smooth H\'{o}lder class model.
arxiv情報
著者 | Joe Suk |
発行日 | 2024-07-11 16:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google