要約
本稿では、パーソナライズされたスレート推薦のためのスケーラブルな確率的モデルである確率的ランクと報酬(Probabilistic Rank and Reward: PRR)を紹介する。本アプローチは、K個のアイテムからなるスレートから、ユーザが最大で1つのアイテムと対話するシナリオにおいて、ポリシーによらない報酬の推定を可能にする。スレートが成功する確率は、ユーザがスレートとの対話に成功したかどうかの報酬と、スレート内で選択されたアイテムのランクを組み合わせることで効率的に学習できることを示す。PRRは既存の政策外の報酬最適化手法を凌駕し、大規模な行動空間に対してはるかにスケーラブルである。さらに、PRRは最大内積探索(MIPS)によって推薦の高速配信を可能にし、計算広告のような低遅延領域に適している。
要約(オリジナル)
We introduce Probabilistic Rank and Reward (PRR), a scalable probabilistic model for personalized slate recommendation. Our approach allows off-policy estimation of the reward in the scenario where the user interacts with at most one item from a slate of K items. We show that the probability of a slate being successful can be learned efficiently by combining the reward, whether the user successfully interacted with the slate, and the rank, the item that was selected within the slate. PRR outperforms existing off-policy reward optimizing methods and is far more scalable to large action spaces. Moreover, PRR allows fast delivery of recommendations powered by maximum inner product search (MIPS), making it suitable in low latency domains such as computational advertising.
arxiv情報
著者 | Imad Aouali,Achraf Ait Sidi Hammou,Otmane Sakhi,David Rohde,Flavian Vasile |
発行日 | 2024-07-05 16:05:41+00:00 |
arxivサイト | arxiv_id(pdf) |