Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

要約

タイトル:オフライン強化学習を用いたレコメンドシステムの因果推論決定Transformer

要約:
– 強化学習を用いたレコメンドシステムは最近注目されているが、報酬関数の設計が難しいことがある。
– ユーザー行動の因果性を探索することで、報酬関数の代わりにエージェントがユーザーの動的な興味を把握できるようになる。
– 大規模な状況で一般的に適用できるようにするため、オフラインデータセットをシミュレーターに変換しようとする試みもあるが、データの効率性に問題がある。
– 本論文では、オフライン強化学習システムである「因果推論決定Transformer forレコメンドシステム(CDT4Rec)」を提案する。
– CDT4Recは、大規模なオフラインデータセットを処理することができ、アクション、状態、報酬の因果関係を推定するためにショートタームとロングタームの依存関係を捉えるモデルである。
– 6つの実際のオフラインデータセットと1つのオンラインシミュレータ上で実験を行い、モデルの実現可能性と優位性を示す。

要約(オリジナル)

Reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the causality underlying users’ behavior can take the place of the reward function in guiding the agent to capture the dynamic interests of users. Moreover, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in large-scale situations. Although some works attempt to convert the offline dataset into a simulator, data inefficiency makes the learning process even slower. Because of the nature of reinforcement learning (i.e., learning by interaction), it cannot collect enough data to train during a single interaction. Furthermore, traditional reinforcement learning algorithms do not have a solid capability like supervised learning methods to learn from offline datasets directly. In this paper, we propose a new model named the causal decision transformer for recommender systems (CDT4Rec). CDT4Rec is an offline reinforcement learning system that can learn from a dataset rather than from online interaction. Moreover, CDT4Rec employs the transformer architecture, which is capable of processing large offline datasets and capturing both short-term and long-term dependencies within the data to estimate the causal relationship between action, state, and reward. To demonstrate the feasibility and superiority of our model, we have conducted experiments on six real-world offline datasets and one online simulator.

arxiv情報

著者 Siyu Wang,Xiaocong Chen,Dietmar Jannach,Lina Yao
発行日 2023-04-17 00:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.IR パーマリンク