Optimal Regret with Limited Adaptivity for Generalized Linear Contextual Bandits

要約

限られた適応性の要件内で、一般化された線形文脈バンディット問題を研究します。
この論文では、B-GLinCB と RS-GLinCB という 2 つのアルゴリズムを紹介します。これらは、確率的コンテキストを使用したバッチ学習と、敵対的コンテキストを使用したまれなポリシーの切り替えという、一般的な 2 つの限定された適応性モデルにそれぞれ対応します。
これらの両方のモデルについて、基本的に厳しいリグレス限界を確立します。
特に、取得された境界では、基礎となる報酬モデルの非線形性を捉える主要なパラメーター $\kappa$ への依存を排除​​することができました。
バッチ学習アルゴリズム B-GLinCB では、$\Omega\left( \log{\log T} \right)$ バッチを使用すると、後悔は $\tilde{O}(\sqrt{T})$ としてスケールされます。
さらに、めったに切り替えないアルゴリズム RS-GLinCB がポリシーを最大 $\tilde{O}(\log^2 T)$ 回更新し、$\tilde{O}(\sqrt{T}) のリグメントを達成することを証明します。
$。
一般化された線形文脈バンディットに対する $\kappa$ への依存を取り除くための私たちのアプローチは、独立した興味深いものになるかもしれません。

要約(オリジナル)

We study the generalized linear contextual bandit problem within the requirements of limited adaptivity. In this paper, we present two algorithms, B-GLinCB and RS-GLinCB, that address, respectively, two prevalent limited adaptivity models: batch learning with stochastic contexts and rare policy switches with adversarial contexts. For both these models, we establish essentially tight regret bounds. Notably, in the obtained bounds, we manage to eliminate a dependence on a key parameter $\kappa$, which captures the non-linearity of the underlying reward model. For our batch learning algorithm B-GLinCB, with $\Omega\left( \log{\log T} \right)$ batches, the regret scales as $\tilde{O}(\sqrt{T})$. Further, we establish that our rarely switching algorithm RS-GLinCB updates its policy at most $\tilde{O}(\log^2 T)$ times and achieves a regret of $\tilde{O}(\sqrt{T})$. Our approach for removing the dependence on $\kappa$ for generalized linear contextual bandits might be of independent interest.

arxiv情報

著者 Ayush Sawarni,Nirjhar Das,Siddharth Barman,Gaurav Sinha
発行日 2024-04-11 13:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク