Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation

要約

最新のリスト形式のレコメンデーション システムでは、長期的なユーザーの認識と短期的な関心の変化の両方を考慮する必要があります。
強化学習は、このような問題を研究するために推奨に基づいて適用できますが、大きな検索スペース、まばらなユーザー フィードバック、および長いインタラクティブ遅延の影響を受けます。
階層型強化学習の最近の進歩を動機として、リストごとの推奨にさまざまなレベルの時間的抽象化を提供する mccHRL と呼ばれる新しいフレームワークを提案します。
階層フレームワーク内で、高レベルのエージェントはユーザーの知覚の進化を研究し、一方、低レベルのエージェントはプロセスを逐次的な意思決定問題としてモデル化することによって項目選択ポリシーを作成します。
我々は、そのようなフレームワークには、高レベルのエージェントと低レベルのエージェントによってそれぞれエンコードされる、セッション外コンテキストとセッション内コンテキストの明確に定義された分解があると主張します。
この議論を検証するために、シミュレータベースの環境と産業データセットベースの実験の両方を実装します。
結果から、いくつかのよく知られたベースラインと比較して、私たちの方法により大幅なパフォーマンスの向上が観察されました。
データとコードは公開されています。

要約(オリジナル)

Modern listwise recommendation systems need to consider both long-term user perceptions and short-term interest shifts. Reinforcement learning can be applied on recommendation to study such a problem but is also subject to large search space, sparse user feedback and long interactive latency. Motivated by recent progress in hierarchical reinforcement learning, we propose a novel framework called mccHRL to provide different levels of temporal abstraction on listwise recommendation. Within the hierarchical framework, the high-level agent studies the evolution of user perception, while the low-level agent produces the item selection policy by modeling the process as a sequential decision-making problem. We argue that such framework has a well-defined decomposition of the outra-session context and the intra-session context, which are encoded by the high-level and low-level agents, respectively. To verify this argument, we implement both a simulator-based environment and an industrial dataset-based experiment. Results observe significant performance improvement by our method, compared with several well-known baselines. Data and codes have been made public.

arxiv情報

著者 Luo Ji,Gao Liu,Mingyang Yin,Hongxia Yang,Jingren Zhou
発行日 2024-09-11 17:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク