要約
オンライン意思決定の多くのアプリケーションでは、環境は非定常であるため、変化に対応するバンディット アルゴリズムを使用することが重要です。
既存のアプローチのほとんどは、時間の経過に伴う全体的な変動またはリプシッツネスによってのみ制約される、滑らかでない変化から保護するように設計されており、$\tilde \Theta(T^{2/3})$ の後悔が保証されます。
ただし、実際の環境では {\bf スムーズ} に変化することが多いため、そのようなアルゴリズムはこれらの設定で必要以上の後悔を招く可能性があり、変化率に関する情報を活用しません。
私たちは非定常二腕バンディット問題を研究します。この問題では、腕の平均報酬は (正規化された) 時間にわたる $\beta$-H\’古い関数、つまり $(\beta-1)$ 倍であると仮定します。
リプシッツ連続微分可能。
$\beta=2$ に対する $\チルダ O(T^{3/5})$ の後悔を伴う政策を提示することにより、スムーズな体制と非スムーズな体制の間の最初の分離を示します。
この結果を、任意の整数 $\beta\ge 1$ の下限 $\Omg(T^{(\beta+1)/(2\beta+1)})$ で補完します。これは、$ の上限と一致します。
\ベータ=2$。
要約(オリジナル)
In many applications of online decision making, the environment is non-stationary and it is therefore crucial to use bandit algorithms that handle changes. Most existing approaches are designed to protect against non-smooth changes, constrained only by total variation or Lipschitzness over time, where they guarantee $\tilde \Theta(T^{2/3})$ regret. However, in practice environments are often changing {\bf smoothly}, so such algorithms may incur higher-than-necessary regret in these settings and do not leverage information on the rate of change. We study a non-stationary two-armed bandits problem where we assume that an arm’s mean reward is a $\beta$-H\’older function over (normalized) time, meaning it is $(\beta-1)$-times Lipschitz-continuously differentiable. We show the first separation between the smooth and non-smooth regimes by presenting a policy with $\tilde O(T^{3/5})$ regret for $\beta=2$. We complement this result by an $\Omg(T^{(\beta+1)/(2\beta+1)})$ lower bound for any integer $\beta\ge 1$, which matches our upper bound for $\beta=2$.
arxiv情報
著者 | Su Jia,Qian Xie,Nathan Kallus,Peter I. Frazier |
発行日 | 2023-06-07 17:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google