On the Interplay Between Misspecification and Sub-optimality Gap in Linear Contextual Bandits

要約

期待される報酬関数は、有界の誤指定レベル $\zeta>0$ までの線形関数クラスによって近似できる、誤って指定された設定での線形コンテキスト バンディットを調査します。
オンライン回帰の不確実性が大きいコンテキスト ベクトルのみを選択する、新しいデータ選択スキームに基づくアルゴリズムを提案します。
$\Delta$ が最小準最適ギャップであり、$d$ が
文脈上のベクトル、私たちのアルゴリズムは、対数因子への明確に指定された設定の場合と同じギャップ依存の後悔限界 $\tilde O (d^2/\Delta)$ を楽しんでいます。
さらに、既存のアルゴリズム SupLinUCB (Chu et al., 2011) も、準最適ギャップ $\Delta$ の知識がなくても、ギャップ依存の定数リグレット バウンドを達成できることを示します。
Lattimore らから適応された下限と一緒に。
(2020)、私たちの結果は、仕様の誤りのレベルと次善のギャップの間の相互作用を示唆しています: (1) $\zeta \leq \tilde O(\Delta / \sqrt{d})$
;
(2) $\zeta \geq \tilde \Omega({\Delta} / {\sqrt{d}})$ の場合、効率的に学習できません。
合成データセットと実世界データセットの両方での実験は、理論上の結果を裏付けています。

要約(オリジナル)

We study linear contextual bandits in the misspecified setting, where the expected reward function can be approximated by a linear function class up to a bounded misspecification level $\zeta>0$. We propose an algorithm based on a novel data selection scheme, which only selects the contextual vectors with large uncertainty for online regression. We show that, when the misspecification level $\zeta$ is dominated by $\tilde O (\Delta / \sqrt{d})$ with $\Delta$ being the minimal sub-optimality gap and $d$ being the dimension of the contextual vectors, our algorithm enjoys the same gap-dependent regret bound $\tilde O (d^2/\Delta)$ as in the well-specified setting up to logarithmic factors. In addition, we show that an existing algorithm SupLinUCB (Chu et al., 2011) can also achieve a gap-dependent constant regret bound without the knowledge of sub-optimality gap $\Delta$. Together with a lower bound adapted from Lattimore et al. (2020), our result suggests an interplay between misspecification level and the sub-optimality gap: (1) the linear contextual bandit model is efficiently learnable when $\zeta \leq \tilde O(\Delta / \sqrt{d})$; and (2) it is not efficiently learnable when $\zeta \geq \tilde \Omega({\Delta} / {\sqrt{d}})$. Experiments on both synthetic and real-world datasets corroborate our theoretical results.

arxiv情報

著者 Weitong Zhang,Jiafan He,Zhiyuan Fan,Quanquan Gu
発行日 2023-03-16 15:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク