Towards Fully Adaptive Regret Minimization in Heavy-Tailed Bandits

要約

ヘビーテール分配は、金融から通信に至るまで、多くの場面で当然発生します。
サブガウスまたは制限されたサポート報酬の下での後悔の最小化は広く研究されてきましたが、ヘビーテール分布での学習はここ 10 年間で人気が高まったばかりです。
確率的ヘビーテールバンディット問題では、エージェントは、ある $\epsilon \in (0,
1]$. 私たちの知る限り、文献では入力としてこれら 2 つの量を必要とするアルゴリズムのみが提供されています。この論文では、$\epsilon$ と
$u$ はエージェントにとって未知です. 適応にはコストがかかることを示し, 適応アルゴリズムのリグレスに 2 つの下限を導入し, 標準設定に対してより高いリグレスを意味します. 最後に, 特定の分布仮定を導入し, 適応性を提供します
堅牢な UCB。ヘビーテール MAB 問題の既知の下限に一致するリグレス最小化戦略。

要約(オリジナル)

Heavy-tailed distributions naturally arise in many settings, from finance to telecommunications. While regret minimization under sub-Gaussian or bounded support rewards has been widely studied, learning on heavy-tailed distributions only gained popularity over the last decade. In the stochastic heavy-tailed bandit problem, an agent learns under the assumption that the distributions have finite moments of maximum order $1+\epsilon$ which are uniformly bounded by a constant $u$, for some $\epsilon \in (0,1]$. To the best of our knowledge, literature only provides algorithms requiring these two quantities as an input. In this paper, we study the stochastic adaptive heavy-tailed bandit, a variation of the standard setting where both $\epsilon$ and $u$ are unknown to the agent. We show that adaptivity comes at a cost, introducing two lower bounds on the regret of any adaptive algorithm, implying a higher regret w.r.t. the standard setting. Finally, we introduce a specific distributional assumption and provide Adaptive Robust UCB, a regret minimization strategy matching the known lower bound for the heavy-tailed MAB problem.

arxiv情報

著者 Gianmarco Genalti,Lupo Marsigli,Nicola Gatti,Alberto Maria Metelli
発行日 2023-10-04 17:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク