要約
推奨においては、当面の利益と長期的な利益の両方を計画することがますます重要になります。
既存の手法では、強化学習 (RL) を適用して、長期的な推奨に対する累積報酬を最大化することで計画能力を学習します。
ただし、推奨データが不足しているため、RL モデルをゼロからトレーニングする場合、不安定性や過学習の影響を受けやすいなどの課題が生じ、最適なパフォーマンスが得られません。
この観点から、私たちは長期的な推奨のために大規模言語モデル (LLM) のまばらなデータに対する優れた計画機能を活用することを提案します。
目標を達成するための鍵は、長期的な取り組みを強化するという原則に従って指導計画を策定し、その計画を個別の方法で効果的で実行可能な行動に根付かせることにあります。
この目的を達成するために、私たちは、一連の LLM インスタンスで構成され、学習プロセスをマクロ学習とミクロ学習に分割して、マクロレベルのガイダンスとミクロレベルのパーソナライズされた推奨ポリシーを学習する、バイレベルの学習可能な LLM プランナー フレームワークを提案します。
、 それぞれ。
広範な実験により、このフレームワークが LLM の長期的な推奨の計画能力を促進することが検証されました。
私たちのコードとデータは https://github.com/jizhi-zhang/BiLLP でご覧いただけます。
要約(オリジナル)
Planning for both immediate and long-term benefits becomes increasingly important in recommendation. Existing methods apply Reinforcement Learning (RL) to learn planning capacity by maximizing cumulative reward for long-term recommendation. However, the scarcity of recommendation data presents challenges such as instability and susceptibility to overfitting when training RL models from scratch, resulting in sub-optimal performance. In this light, we propose to leverage the remarkable planning capabilities over sparse data of Large Language Models (LLMs) for long-term recommendation. The key to achieving the target lies in formulating a guidance plan following principles of enhancing long-term engagement and grounding the plan to effective and executable actions in a personalized manner. To this end, we propose a Bi-level Learnable LLM Planner framework, which consists of a set of LLM instances and breaks down the learning process into macro-learning and micro-learning to learn macro-level guidance and micro-level personalized recommendation policies, respectively. Extensive experiments validate that the framework facilitates the planning ability of LLMs for long-term recommendation. Our code and data can be found at https://github.com/jizhi-zhang/BiLLP.
arxiv情報
著者 | Wentao Shi,Xiangnan He,Yang Zhang,Chongming Gao,Xinyue Li,Jizhi Zhang,Qifan Wang,Fuli Feng |
発行日 | 2024-04-26 07:41:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google