PrefRec: Recommender Systems with Human Preferences for Reinforcing Long-term User Engagement

要約

現在のレコメンダーシステムの進歩は、即時的なエンゲージメントを最適化することに顕著に成功しています。しかし、より望ましい性能指標である長期的なユーザーエンゲージメントを改善することは依然として困難である。一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいてその有効性を示しています。そのため、RLはレコメンデーションにおける長期的なユーザーエンゲージメントの最適化のための有望なフレームワークとして広く考えられている。しかし、RLの応用は、適切に設計された報酬に大きく依存しており、長期的なユーザーのエンゲージメントに関連する報酬を設計することは非常に困難である。この問題を軽減するために、我々は、人間の嗜好を用いた推薦システム(Preference-based Recommender systems)という新しいパラダイムを提案し、RL推薦システムが、明示的に定義された報酬ではなく、ユーザーの過去の行動に関する嗜好から学ぶことを可能にします。このような嗜好は、専門家の知識を必要としないため、クラウドソーシングなどの技術によって容易にアクセスすることができる。PrefRecでは、複雑な報酬工学を避けつつ、長期的な目標を最適化するRLの利点を十分に生かすことができる。PrefRecは、嗜好を利用して、エンドツーエンドで報酬関数を自動的に学習させる。そして、その報酬関数を用いて学習信号を生成し、推薦ポリシーを学習する。さらに、PrefRecの性能を向上させるために、付加価値関数、期待値回帰、報酬モデルの事前学習を用いた効果的な最適化手法を設計している。長期にわたる様々なユーザーエンゲージメントの最適化タスクについて実験を行う。その結果、PrefRecはすべてのタスクにおいて、これまでの最先端手法を大幅に上回ることがわかった。

要約(オリジナル)

Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Though promising, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, recommender systems with human preferences (or Preference-based Recommender systems), which allows RL recommender systems to learn from preferences about users historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. We conduct experiments on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.

arxiv情報

著者 Wanqi Xue,Qingpeng Cai,Zhenghai Xue,Shuo Sun,Shuchang Liu,Dong Zheng,Peng Jiang,Kun Gai,Bo An
発行日 2023-06-02 16:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク