Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits

要約

Implicitly Normalized Forecaster (INF) アルゴリズムは、敵対的なマルチアーム バンディット (MAB) 問題に対する最適なソリューションであると考えられています。
ただし、INF の既存の複雑さの結果のほとんどは、制限された報酬などの限定的な仮定に依存しています。
最近、敵対的および確率的ヘビーテール MAB 設定の両方で機能する関連アルゴリズムが提案されました。
ただし、このアルゴリズムでは、利用可能なデータを十分に活用できません。
この論文では、ヘビーテール報酬分布を伴う MAB 問題に対して、クリッピングを伴う暗黙的正規化予測器 (INF クリップ) と呼ばれる INF の新しいバージョンを提案します。
報酬分布に関する穏やかな仮定の下で収束結果を確立し、INF クリップが線形ヘビーテール確率論的 MAB 問題には最適であり、非線形問題にもうまく機能することを示します。
さらに、異なるアームを区別することが難しい場合には、INF クリップが両方の長所を備えたアルゴリズムよりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

The Implicitly Normalized Forecaster (INF) algorithm is considered to be an optimal solution for adversarial multi-armed bandit (MAB) problems. However, most of the existing complexity results for INF rely on restrictive assumptions, such as bounded rewards. Recently, a related algorithm was proposed that works for both adversarial and stochastic heavy-tailed MAB settings. However, this algorithm fails to fully exploit the available data. In this paper, we propose a new version of INF called the Implicitly Normalized Forecaster with clipping (INF-clip) for MAB problems with heavy-tailed reward distributions. We establish convergence results under mild assumptions on the rewards distribution and demonstrate that INF-clip is optimal for linear heavy-tailed stochastic MAB problems and works well for non-linear ones. Furthermore, we show that INF-clip outperforms the best-of-both-worlds algorithm in cases where it is difficult to distinguish between different arms.

arxiv情報

著者 Yuriy Dorn,Nikita Kornilov,Nikolay Kutuzov,Alexander Nazin,Eduard Gorbunov,Alexander Gasnikov
発行日 2023-12-26 13:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク