Learning with Exposure Constraints in Recommendation Systems

要約

推奨システムは、複数の利害関係者のニーズのバランスをとる動的な経済システムです。
最近の研究では、コンテンツプロバイダーの観点からインセンティブを研究しています。
ビデオブロガーやブロガーなどのコンテンツプロバイダーは、新鮮なコンテンツを提供し、ユーザーの関与に依存して収益を生み出し、運営資金を調達します。
この研究では、露出に対するコンテンツプロバイダーの依存関係をモデル化するために、状況に応じたマルチアームバンディット設定を提案します。
私たちのモデルでは、システムはラウンドごとにユーザー コンテキストを受け取り、アームの 1 つを選択する必要があります。
すべてのアームはコンテンツ プロバイダーであり、後のラウンドで存続するために、一定の期間 (例: 1 か月) ごとに最小限のプル数を受信する必要があります。
そうしないと、アームが離れて使用できなくなります。
このシステムは、ユーザー (コンテンツ消費者) の福祉を最大化することを目的としています。
そのためには、どの腕が不可欠であるかを学習し、必要に応じて腕の引っ張りに補助金を提供することで、それらの腕が確実に存続できるようにする必要があります。
私たちは、アルゴリズムが対数係数まで最適であることを示す下限だけでなく、線形未満のリグレスを備えたアルゴリズムを開発します。

要約(オリジナル)

Recommendation systems are dynamic economic systems that balance the needs of multiple stakeholders. A recent line of work studies incentives from the content providers’ point of view. Content providers, e.g., vloggers and bloggers, contribute fresh content and rely on user engagement to create revenue and finance their operations. In this work, we propose a contextual multi-armed bandit setting to model the dependency of content providers on exposure. In our model, the system receives a user context in every round and has to select one of the arms. Every arm is a content provider who must receive a minimum number of pulls every fixed time period (e.g., a month) to remain viable in later rounds; otherwise, the arm departs and is no longer available. The system aims to maximize the users’ (content consumers) welfare. To that end, it should learn which arms are vital and ensure they remain viable by subsidizing arm pulls if needed. We develop algorithms with sub-linear regret, as well as a lower bound that demonstrates that our algorithms are optimal up to logarithmic factors.

arxiv情報

著者 Omer Ben-Porat,Rotem Torkan
発行日 2023-11-10 09:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク