SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems

要約

強化学習 (RL) は、長期的な報酬を最適化し、ユーザーが関連コンテンツを発見できるようガイドする機能があるため、レコメンダー システムの分野で人気が高まっています。
ただし、ポリシーに基づいた手法をトレーニングするためのオンライン データの利用可能性が限られているなど、いくつかの要因により、レコメンダー システムで RL を適切に実装することは困難です。
この欠乏により、オンライン モデル トレーニングには高価な人間の介入が必要になります。
さらに、モデルの品質を正確に反映する効果的な評価フレームワークの開発は、レコメンダー システムにおける基本的な課題のままです。
これらの課題に対処するために、大規模言語モデル (LLM) の機能を利用して人間の行動をシミュレートする合成環境の包括的なフレームワークを提案します。
私たちは、詳細なアブレーション研究でフレームワークを補完し、映画や書籍の推奨に関する実験でその有効性を実証します。
この研究では、LLM を合成ユーザーとして使用し、RL ベースのレコメンダー システムをトレーニングするためのモジュール式の新しいフレームワークを導入しています。
RL 環境を含むソフトウェアは、GitHub で公開されています。

要約(オリジナル)

Reinforcement learning (RL) has gained popularity in the realm of recommender systems due to its ability to optimize long-term rewards and guide users in discovering relevant content. However, the successful implementation of RL in recommender systems is challenging because of several factors, including the limited availability of online data for training on-policy methods. This scarcity requires expensive human interaction for online model training. Furthermore, the development of effective evaluation frameworks that accurately reflect the quality of models remains a fundamental challenge in recommender systems. To address these challenges, we propose a comprehensive framework for synthetic environments that simulate human behavior by harnessing the capabilities of large language models (LLMs). We complement our framework with in-depth ablation studies and demonstrate its effectiveness with experiments on movie and book recommendations. Using LLMs as synthetic users, this work introduces a modular and novel framework to train RL-based recommender systems. The software, including the RL environment, is publicly available on GitHub.

arxiv情報

著者 Nathan Corecco,Giorgio Piatti,Luca A. Lanzendörfer,Flint Xiaofeng Fan,Roger Wattenhofer
発行日 2024-08-20 13:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク