Catoni-Style Change Point Detection for Regret Minimization in Non-Stationary Heavy-Tailed Bandits

要約

確率的非定常盗賊の後悔の最小化は、広告から推奨システムまで、広範なクラスの実際の問題をモデル化できるため、過去10年間で人気を博しました。
既存の文献は、ベルヌーリやサブガウスの報酬など、報酬を生成するプロセスに関するさまざまな仮定に依存しています。
ただし、金融や通信などの設定では、重度の尾のある分布が自然に発生します。
この作業では、重い尾のある区分的な盗賊問題に取り組んでいます。
Bubeck et al。、2013によって導入された重尾の盗賊は、最大注文$ 1+\ epsilon $の有限絶対中心モーメントが一定の$ v <+\ infty $によって均一に境界を付けているという最小限の仮定で動作します。 報酬生成分布の平均は、未知の時間ステップで変化する可能性があります。 最後に、合成および実世界のデータセットに関する数値実験を通じてアプローチを検証します。

要約(オリジナル)

Regret minimization in stochastic non-stationary bandits gained popularity over the last decade, as it can model a broad class of real-world problems, from advertising to recommendation systems. Existing literature relies on various assumptions about the reward-generating process, such as Bernoulli or subgaussian rewards. However, in settings such as finance and telecommunications, heavy-tailed distributions naturally arise. In this work, we tackle the heavy-tailed piecewise-stationary bandit problem. Heavy-tailed bandits, introduced by Bubeck et al., 2013, operate on the minimal assumption that the finite absolute centered moments of maximum order $1+\epsilon$ are uniformly bounded by a constant $v<+\infty$, for some $\epsilon \in (0,1]$. We focus on the most popular non-stationary bandit setting, i.e., the piecewise-stationary setting, in which the mean of reward-generating distributions may change at unknown time steps. We provide a novel Catoni-style change-point detection strategy tailored for heavy-tailed distributions that relies on recent advancements in the theory of sequential estimation, which is of independent interest. We introduce Robust-CPD-UCB, which combines this change-point detection strategy with optimistic algorithms for bandits, providing its regret upper bound and an impossibility result on the minimum attainable regret for any policy. Finally, we validate our approach through numerical experiments on synthetic and real-world datasets.

arxiv情報

著者 Gianmarco Genalti,Sujay Bhatt,Nicola Gatti,Alberto Maria Metelli
発行日 2025-05-26 14:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク