要約
シーケンス推奨 (SeqRec) は、ユーザーの意図を理解し、協調フィルタリング情報を活用することで、ユーザーが次に操作するアイテムを予測することを目的としています。
大規模言語モデル (LLM) は、プロンプトベースの固定リフレクション ライブラリと微調整技術を通じて、レコメンデーション タスクに大きな期待を寄せています。
しかし、これらの方法は、監視の欠如、反射源を最適化できないこと、多様なユーザーのニーズに柔軟に対応できないこと、高い計算コストなどの課題に直面しています。
有望な結果にもかかわらず、現在の研究は主にユーザーの明示的な好み(商品タイトルなど)の反映に焦点を当てており、暗黙的な好み(ブランドなど)や協調フィルタリング情報は無視されています。
この見落としにより、好みの変化や動的なユーザー行動の把握が妨げられます。
さらに、既存のアプローチには反映評価と反復のためのメカニズムが欠如しており、多くの場合、次善の推奨事項につながります。
これらの問題に対処するために、SeqRec で動的なユーザーの好みをモデル化し学習するように設計された Mixture of REflectors (MoRE) フレームワークを提案します。
具体的には、MoRE では、明示的なプリファレンス、暗黙的なプリファレンス、および協調信号に対する LLM ベースのリフレクションを生成するための 3 つのリフレクターが導入されています。
各リフレクターには、リフレクションを評価して反復的に更新するための、リファインと反復と呼ばれる自己改善戦略が組み込まれています。
さらに、メタリフレクターはコンテキスト バンディット アルゴリズムを採用して、各ユーザーの推奨事項に最適な専門家と対応するリフレクションを選択し、動的な好みを効果的にキャプチャします。
3 つの現実世界のデータセットに対する広範な実験により、MoRE が常に最先端の手法を上回っており、SeqRec の他の LLM ベースのアプローチと比較して必要なトレーニング時間と GPU メモリが少ないことが実証されています。
要約(オリジナル)
Sequence recommendation (SeqRec) aims to predict the next item a user will interact with by understanding user intentions and leveraging collaborative filtering information. Large language models (LLMs) have shown great promise in recommendation tasks through prompt-based, fixed reflection libraries, and fine-tuning techniques. However, these methods face challenges, including lack of supervision, inability to optimize reflection sources, inflexibility to diverse user needs, and high computational costs. Despite promising results, current studies primarily focus on reflections of users’ explicit preferences (e.g., item titles) while neglecting implicit preferences (e.g., brands) and collaborative filtering information. This oversight hinders the capture of preference shifts and dynamic user behaviors. Additionally, existing approaches lack mechanisms for reflection evaluation and iteration, often leading to suboptimal recommendations. To address these issues, we propose the Mixture of REflectors (MoRE) framework, designed to model and learn dynamic user preferences in SeqRec. Specifically, MoRE introduces three reflectors for generating LLM-based reflections on explicit preferences, implicit preferences, and collaborative signals. Each reflector incorporates a self-improving strategy, termed refining-and-iteration, to evaluate and iteratively update reflections. Furthermore, a meta-reflector employs a contextual bandit algorithm to select the most suitable expert and corresponding reflections for each user’s recommendation, effectively capturing dynamic preferences. Extensive experiments on three real-world datasets demonstrate that MoRE consistently outperforms state-of-the-art methods, requiring less training time and GPU memory compared to other LLM-based approaches in SeqRec.
arxiv情報
著者 | Weicong Qin,Yi Xu,Weijie Yu,Chenglei Shen,Xiao Zhang,Ming He,Jianping Fan,Jun Xu |
発行日 | 2024-09-10 09:58:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google