Bandits with Deterministically Evolving States

要約

我々は、決定論的に進化する状態と、決定論的に進化する状態を有するバンディットと呼ぶ観察不可能な状態を考慮しながら、バンディットフィードバックを使用して学習するためのモデルを提案します。
私たちのモデルの主力アプリケーションは、レコメンデーション システムの学習とオンライン広告の学習です。
どちらの場合も、アルゴリズムが各ラウンドで取得する報酬は、選択されたアクションの短期的な報酬と、システムがどの程度「健全」であるか (つまり、その状態によって測定される) の関数です。
たとえば、レコメンデーション システムでは、特定の種類のコンテンツに対するユーザーの関与からプラットフォームが得る報酬は、特定のコンテンツの固有の機能だけでなく、プラットフォーム上の他の種類のコンテンツとの対話の結果としてユーザーの好みがどのように進化したかにも依存します。
私たちの一般的なモデルは、状態が進化するさまざまな速度 $\lambda \in [0,1]$ (たとえば、以前のコンテンツ消費の結果としてユーザーの好みがどれだけ早く変化するか) を考慮しており、標準的な多腕バンディットを特殊なケースとして包含しています。
このアルゴリズムの目標は、腕を引く順序が最適に固定されたことに対する後悔の概念を最小限に抑えることです。
私たちはオンライン学習アルゴリズムを分析して、進化率 $\lambda$ のパラメータ化の可能性を調べます。
具体的には、得られる後悔率は次のとおりです。 $\lambda \in [0, 1/T^2]$ の場合: $\widetilde O(\sqrt{KT})$;
$\lambda = T^{-a/b}$ の場合、$b < a < 2b$: $\widetilde O (T^{b/a})$; $\lambda \in (1/T, 1 - 1/\sqrt{T}) の場合: \widetilde O (K^{1/3}T^{2/3})$; $\lambda \in [1 - 1/\sqrt{T}, 1] の場合: \widetilde O (K\sqrt{T})$。

要約(オリジナル)

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call Bandits with Deterministically Evolving States. The workhorse applications of our model are learning for recommendation systems and learning for online ads. In both cases, the reward that the algorithm obtains at each round is a function of the short-term reward of the action chosen and how “healthy” the system is (i.e., as measured by its state). For example, in recommendation systems, the reward that the platform obtains from a user’s engagement with a particular type of content depends not only on the inherent features of the specific content, but also on how the user’s preferences have evolved as a result of interacting with other types of content on the platform. Our general model accounts for the different rate $\lambda \in [0,1]$ at which the state evolves (e.g., how fast a user’s preferences shift as a result of previous content consumption) and encompasses standard multi-armed bandits as a special case. The goal of the algorithm is to minimize a notion of regret against the best-fixed sequence of arms pulled. We analyze online learning algorithms for any possible parametrization of the evolution rate $\lambda$. Specifically, the regret rates obtained are: for $\lambda \in [0, 1/T^2]$: $\widetilde O(\sqrt{KT})$; for $\lambda = T^{-a/b}$ with $b < a < 2b$: $\widetilde O (T^{b/a})$; for $\lambda \in (1/T, 1 - 1/\sqrt{T}): \widetilde O (K^{1/3}T^{2/3})$; and for $\lambda \in [1 - 1/\sqrt{T}, 1]: \widetilde O (K\sqrt{T})$.

arxiv情報

著者 Khashayar Khosravi,Renato Paes Leme,Chara Podimata,Apostolis Tsorvantzis
発行日 2023-07-21 15:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG パーマリンク