Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation

要約

大規模言語モデル (LLM) は、セッションベースのレコメンデーション (SBR) を強化するための有望なアプローチとして浮上しており、LLM を SBR と連携させるために、プロンプトベースと微調整ベースの両方の方法が広く研究されています。
ただし、前者の方法では、タスク固有のフィードバックが欠如しているため、LLM の正しい推論を引き出すための最適なプロンプトに苦労し、満足のいく推奨事項が得られません。
後者の方法では、ドメイン固有の知識を使用して LLM を微調整しようとしますが、高い計算コストやオープンソース バックボーンへの依存などの制限に直面します。
このような問題に対処するために、私たちは SBR 向けの \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM) を提案し、LLM が専門的な問題に焦点を当てるよう導きます。
より正確な推奨を効果的かつ効率的に行うために不可欠な知識。
特に、LLM が容易に理解でき、理解しやすい知識を効果的に抽出するために、最初に Reflective Exploration モジュールを設計します。
具体的には、LLM に対し、内省を通じて推奨エラーを調査し、これらのエラーを修正できるヒントを含むナレッジ ベース (KB) を構築するように指示します。
LLM の正しい推論を効率的に引き出すために、軽量の検索エージェントをトレーニングするための強化利用モジュールをさらに考案しました。
タスク固有のフィードバックに基づいて、構築された KB からヒントを選択することを学習します。ヒントは、LLM の推論を修正してより良い推奨事項を得るのに役立つガイダンスとして機能します。
複数の実世界のデータセットに対する広範な実験により、私たちの方法が常に最先端の方法よりも優れていることが実証されています。

要約(オリジナル)

Large Language Models (LLMs) are emerging as promising approaches to enhance session-based recommendation (SBR), where both prompt-based and fine-tuning-based methods have been widely investigated to align LLMs with SBR. However, the former methods struggle with optimal prompts to elicit the correct reasoning of LLMs due to the lack of task-specific feedback, leading to unsatisfactory recommendations. Although the latter methods attempt to fine-tune LLMs with domain-specific knowledge, they face limitations such as high computational costs and reliance on open-source backbones. To address such issues, we propose a \underline{Re}flective \underline{Re}inforcement \underline{L}arge \underline{L}anguage \underline{M}odel (Re2LLM) for SBR, guiding LLMs to focus on specialized knowledge essential for more accurate recommendations effectively and efficiently. In particular, we first design the Reflective Exploration Module to effectively extract knowledge that is readily understandable and digestible by LLMs. To be specific, we direct LLMs to examine recommendation errors through self-reflection and construct a knowledge base (KB) comprising hints capable of rectifying these errors. To efficiently elicit the correct reasoning of LLMs, we further devise the Reinforcement Utilization Module to train a lightweight retrieval agent. It learns to select hints from the constructed KB based on the task-specific feedback, where the hints can serve as guidance to help correct LLMs reasoning for better recommendations. Extensive experiments on multiple real-world datasets demonstrate that our method consistently outperforms state-of-the-art methods.

arxiv情報

著者 Ziyan Wang,Yingpeng Du,Zhu Sun,Haoyan Chua,Kaidong Feng,Wenya Wang,Jie Zhang
発行日 2024-03-25 05:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク