Multi-Objective Recommendation via Multivariate Policy Learning

要約

実世界のレコメンダーシステムは、ユーザーにどのレコメンデーションを提示するかを決定する際に、しばしば複数の目的のバランスを取る必要がある。これらの目的には、行動シグナル(例:クリック、シェア、滞在時間)だけでなく、より広範な目的(例:多様性、公平性)も含まれる。スカラリゼーション法は、このバランスタスクを処理するために一般的に使用され、目的ごとの報酬シグナルの加重平均がランキングに使用される最終スコアを決定します。当然ながら、これらの重みをどのように正確に計算するかが、オンラインプラットフォームの成功の鍵となる。我々はこれを意思決定タスクとして捉え、スカラリゼーションの重みは、全体的な北極星報酬(例えば長期的なユーザー維持や成長)を最大化するために取られる行動である。我々は既存のポリシー学習法を連続多変量アクション領域に拡張し、学習されたポリシーがもたらす北極星報酬の悲観的下界を最大化することを提案する。正規近似に基づく典型的な下界は不十分なカバレッジに悩まされるが、我々は効率的かつ効果的な政策依存の補正を提案する。我々は、確率的なデータ収集ポリシーと、高感度な報酬シグナルを設計するための指針を提供する。シミュレーション、オフライン実験、オンライン実験による実証的な観察から、我々の展開したアプローチの有効性を強調する。

要約(オリジナル)

Real-world recommender systems often need to balance multiple objectives when deciding which recommendations to present to users. These include behavioural signals (e.g. clicks, shares, dwell time), as well as broader objectives (e.g. diversity, fairness). Scalarisation methods are commonly used to handle this balancing task, where a weighted average of per-objective reward signals determines the final score used for ranking. Naturally, how these weights are computed exactly, is key to success for any online platform. We frame this as a decision-making task, where the scalarisation weights are actions taken to maximise an overall North Star reward (e.g. long-term user retention or growth). We extend existing policy learning methods to the continuous multivariate action domain, proposing to maximise a pessimistic lower bound on the North Star reward that the learnt policy will yield. Typical lower bounds based on normal approximations suffer from insufficient coverage, and we propose an efficient and effective policy-dependent correction for this. We provide guidance to design stochastic data collection policies, as well as highly sensitive reward signals. Empirical observations from simulations, offline and online experiments highlight the efficacy of our deployed approach.

arxiv情報

著者 Olivier Jeunen,Jatin Mandav,Ivan Potapov,Nakul Agarwal,Sourabh Vaid,Wenzhe Shi,Aleksei Ustimenko
発行日 2024-05-03 14:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IR, cs.LG パーマリンク