How Does Variance Shape the Regret in Contextual Bandits?

要約

一般関数近似を使用して実現可能なコンテキスト バンディットを検討し、小さな報酬の分散がどのように最小値よりも優れたリグレス限界につながるかを調査します。
ミニマックス境界とは異なり、分散依存境界では、とらえどころのない次元 $d_\text{elu}$$-$関数 class$-$ の複雑さの尺度が重要な役割を果たすことを示します。
我々は 2 つのタイプの敵対者を考えます: (1) 弱い敵対者: 敵対者は学習者の行動を観察する前に報酬の分散を設定します。
この設定では、$d_{\ の場合、$\Omega(\sqrt{\min\{A,d_\text{elu}\}\Lambda}+d_\text{elu})$ の後悔は避けられないことを証明します。
text{elu}}\leq\sqrt{AT}$、ここで、$A$ はアクションの数、$T$ はラウンドの合計数、$\Lambda$ は $T$ ラウンドにわたる合計の分散です。
$A\leq d_\text{elu}$ 領域の場合、次の特殊な場合にほぼ一致する上限 $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$ を導出します。
差異は各ラウンドの開始時に明らかになります。
(2) 強い敵対者: 敵対者は、学習者の行動を観察した後、報酬の分散を設定します。
$\sqrt{d_\text{elu}\Lambda}+d_\ の場合、$\Omega(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ の後悔は避けられないことを示します。
text{elu}\leq\sqrt{AT}$。
この設定では、$\tilde{O}(d_\text{elu}\sqrt{\Lambda}+d_\text{elu})$ という順序の上限を提供します。
さらに、Wang らによって研究されたように、関数クラスが報酬の分布情報を追加で提供する設定を検討します。
(2024年)。
彼らの研究で確立された後悔限界 $\tilde{O}(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ は、$\sqrt{d_{\text{ の場合には改善できないことを示します。
elu}}\Lambda}+d_\text{elu}\leq\sqrt{AT}$。
ただし、総分散の定義が少し異なり、報酬がガウス分布に従うと仮定すると、$\tilde{O}(\sqrt{A\Lambda}+d_\text{elu}) という残念な結果を達成することができます。
)$。

要約(オリジナル)

We consider realizable contextual bandits with general function approximation, investigating how small reward variance can lead to better-than-minimax regret bounds. Unlike in minimax bounds, we show that the eluder dimension $d_\text{elu}$$-$a complexity measure of the function class$-$plays a crucial role in variance-dependent bounds. We consider two types of adversary: (1) Weak adversary: The adversary sets the reward variance before observing the learner’s action. In this setting, we prove that a regret of $\Omega(\sqrt{\min\{A,d_\text{elu}\}\Lambda}+d_\text{elu})$ is unavoidable when $d_{\text{elu}}\leq\sqrt{AT}$, where $A$ is the number of actions, $T$ is the total number of rounds, and $\Lambda$ is the total variance over $T$ rounds. For the $A\leq d_\text{elu}$ regime, we derive a nearly matching upper bound $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$ for the special case where the variance is revealed at the beginning of each round. (2) Strong adversary: The adversary sets the reward variance after observing the learner’s action. We show that a regret of $\Omega(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ is unavoidable when $\sqrt{d_\text{elu}\Lambda}+d_\text{elu}\leq\sqrt{AT}$. In this setting, we provide an upper bound of order $\tilde{O}(d_\text{elu}\sqrt{\Lambda}+d_\text{elu})$. Furthermore, we examine the setting where the function class additionally provides distributional information of the reward, as studied by Wang et al. (2024). We demonstrate that the regret bound $\tilde{O}(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ established in their work is unimprovable when $\sqrt{d_{\text{elu}}\Lambda}+d_\text{elu}\leq\sqrt{AT}$. However, with a slightly different definition of the total variance and with the assumption that the reward follows a Gaussian distribution, one can achieve a regret of $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$.

arxiv情報

著者 Zeyu Jia,Jian Qian,Alexander Rakhlin,Chen-Yu Wei
発行日 2024-10-16 16:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク