Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms

要約

我々は、決定論的に進化する状態と観察不可能な状態を考慮しながらバンディットフィードバックを使用して学習するモデルを提案します。これを、決定論的に進化する状態を持つバンディット($B$-$DES$)と呼びます。
私たちのモデルの主力アプリケーションは、レコメンデーション システムの学習とオンライン広告の学習です。
どちらの場合も、アルゴリズムが各ラウンドで取得する報酬は、選択されたアクションの短期的な報酬と、システムがどの程度「健全」であるか (つまり、その状態によって測定される) の関数です。
たとえば、レコメンデーション システムでは、特定の種類のコンテンツに対するユーザーの関与からプラットフォームが得る報酬は、特定のコンテンツの固有の機能だけでなく、コンテンツとの対話の結果としてユーザーの好みがどのように進化したかにも依存します。
プラットフォーム上の他のタイプのコンテンツ。
私たちの一般的なモデルは、状態が進化するさまざまな速度 $\lambda \in [0,1]$ (たとえば、以前のコンテンツ消費の結果としてユーザーの好みがどれだけ早く変化するか) を考慮しており、標準的な多腕バンディットを
特別なケース。
このアルゴリズムの目標は、腕を引いた最適な固定シーケンスに対する後悔の概念を最小限に抑えることですが、後から考えると、最適な固定アクションの標準ベンチマークと比較して達成するのが大幅に困難です。
私たちは、進化率 $\lambda$ のあらゆる可能な値に対するオンライン学習アルゴリズムを提示し、さまざまなモデルの仕様ミスに対する結果の堅牢性を示します。

要約(オリジナル)

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call Bandits with Deterministically Evolving States ($B$-$DES$). The workhorse applications of our model are learning for recommendation systems and learning for online ads. In both cases, the reward that the algorithm obtains at each round is a function of the short-term reward of the action chosen and how ‘healthy’ the system is (i.e., as measured by its state). For example, in recommendation systems, the reward that the platform obtains from a user’s engagement with a particular type of content depends not only on the inherent features of the specific content, but also on how the user’s preferences have evolved as a result of interacting with other types of content on the platform. Our general model accounts for the different rate $\lambda \in [0,1]$ at which the state evolves (e.g., how fast a user’s preferences shift as a result of previous content consumption) and encompasses standard multi-armed bandits as a special case. The goal of the algorithm is to minimize a notion of regret against the best-fixed sequence of arms pulled, which is significantly harder to attain compared to standard benchmark of the best-fixed action in hindsight. We present online learning algorithms for any possible value of the evolution rate $\lambda$ and we show the robustness of our results to various model misspecifications.

arxiv情報

著者 Khashayar Khosravi,Renato Paes Leme,Chara Podimata,Apostolis Tsorvantzis
発行日 2024-02-19 14:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG パーマリンク