Optimizing Audio Recommendations for the Long-Term: A Reinforcement Learning Perspective

要約

数週間または数か月にわたって発生する結果に対して推奨システムを最適化する問題を研究します。
まず、強化学習を利用して、レコメンデーション システムとのユーザーの反復関係の包括的なモデルを策定します。
測定、帰属、および調整の課題は、アルゴリズムの設計を複雑にします。
これらの課題を克服し、シンプルでテスト可能な推奨システムのプロトタイプにつながる、ユーザー状態の新しい表現と重要な条件付き独立性の仮定を含む、慎重なモデリングについて説明します。
私たちは、数億人のリスナーにパーソナライズされたレコメンデーションを行うポッドキャスト レコメンダー システムにアプローチを適用します。
A/B テストは、長期的な結果のために意図的に最適化すると、短期的なプロキシを最適化する従来のアプローチよりもパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

We study the problem of optimizing a recommender system for outcomes that occur over several weeks or months. We begin by drawing on reinforcement learning to formulate a comprehensive model of users’ recurring relationships with a recommender system. Measurement, attribution, and coordination challenges complicate algorithm design. We describe careful modeling — including a new representation of user state and key conditional independence assumptions — which overcomes these challenges and leads to simple, testable recommender system prototypes. We apply our approach to a podcast recommender system that makes personalized recommendations to hundreds of millions of listeners. A/B tests demonstrate that purposefully optimizing for long-term outcomes leads to large performance gains over conventional approaches that optimize for short-term proxies.

arxiv情報

著者 Lucas Maystre,Daniel Russo,Yu Zhao
発行日 2023-02-28 16:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, cs.SY, eess.SY, stat.ML パーマリンク