Catoni Contextual Bandits are Robust to Heavy-tailed Rewards

要約

典型的な文脈バンディットアルゴリズムは、各ラウンドの報酬がある固定範囲$[0, R]$にあると仮定し、その後悔はこの報酬範囲$R$に対して多項式にスケールする。しかし、多くの実用的なシナリオでは、報酬が重くしぼられたり、最悪の場合の報酬の範囲が分散よりも大幅に大きくなることがある。本論文では、ロバスト統計学のCatoniの推定量に基づくアルゴリズムアプローチを開発し、一般関数近似を用いた文脈バンディットに適用する。各ラウンドにおける報酬の分散が既知の場合、分散重み付け回帰法を用い、累積報酬分散と報酬範囲$R$とラウンド数$T$に対数依存する後悔境界を確立する。未知分散の場合には、さらに注意深いピーリングに基づくアルゴリズムを提案し、面倒な分散推定の必要性を取り除く。第4モーメントへの依存性を追加することで、我々のアルゴリズムは対数報酬範囲依存性を持つ分散ベースの境界を享受する。さらに、マッチング下界により、我々の後悔限界における先行項が最適であることを示す。

要約(オリジナル)

Typical contextual bandit algorithms assume that the rewards at each round lie in some fixed range $[0, R]$, and their regret scales polynomially with this reward range $R$. However, many practical scenarios naturally involve heavy-tailed rewards or rewards where the worst-case range can be substantially larger than the variance. In this paper, we develop an algorithmic approach building on Catoni’s estimator from robust statistics, and apply it to contextual bandits with general function approximation. When the variance of the reward at each round is known, we use a variance-weighted regression approach and establish a regret bound that depends only on the cumulative reward variance and logarithmically on the reward range $R$ as well as the number of rounds $T$. For the unknown-variance case, we further propose a careful peeling-based algorithm and remove the need for cumbersome variance estimation. With additional dependence on the fourth moment, our algorithm also enjoys a variance-based bound with logarithmic reward-range dependence. Moreover, we demonstrate the optimality of the leading-order term in our regret bound through a matching lower bound.

arxiv情報

著者 Chenlu Ye,Yujia Jin,Alekh Agarwal,Tong Zhang
発行日 2025-02-04 17:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク