要約
会話型レコメンダー システム (CRS) は、対話インターフェイスを通じて高品質のアイテムをユーザーに推奨することを目的としています。
通常、ユーザーの好みの引き出し、推奨、説明、商品情報の検索などの複数のサブタスクが含まれます。
効果的な CRS を開発するには、いくつかの課題があります。1) サブタスクを適切に管理する方法。
2) さまざまなサブタスクを効果的に解決する方法。
3) ユーザーと対話する応答を正しく生成する方法。
最近、大規模言語モデル (LLM) は前例のない推論および生成能力を発揮し、より強力な CRS を開発する新たな機会を提供しています。
この研究では、上記の課題に対処するために、LLMCRS と呼ばれる新しい LLM ベースの CRS を提案します。
サブタスク管理では、LLM の推論機能を活用してサブタスクを効果的に管理します。
サブタスクの解決では、LLM とさまざまなサブタスクのエキスパート モデルを連携させて、パフォーマンスの向上を実現します。
応答の生成には、ユーザーとの対話を改善するための言語インターフェイスとして LLM の生成機能を利用します。
具体的には、LLMCRS はワークフローをサブタスク検出、モデル マッチング、サブタスク実行、応答生成の 4 つの段階に分割します。
LLMCRS はまた、スキーマベースの命令、デモンストレーションベースの命令、動的なサブタスクとモデルのマッチング、ワークフローで目的の結果を生成するように LLM に指示するサマリーベースの生成も設計します。
最後に、LLM を会話型レコメンデーションに適応させるために、RLPF と呼ばれる CRS パフォーマンス フィードバックからの強化学習を使用して LLM を微調整することも提案します。
ベンチマーク データセットの実験結果は、RLPF を使用した LLMCRS が既存の方法よりも優れていることを示しています。
要約(オリジナル)
Conversational recommender systems (CRSs) aim to recommend high-quality items to users through a dialogue interface. It usually contains multiple sub-tasks, such as user preference elicitation, recommendation, explanation, and item information search. To develop effective CRSs, there are some challenges: 1) how to properly manage sub-tasks; 2) how to effectively solve different sub-tasks; and 3) how to correctly generate responses that interact with users. Recently, Large Language Models (LLMs) have exhibited an unprecedented ability to reason and generate, presenting a new opportunity to develop more powerful CRSs. In this work, we propose a new LLM-based CRS, referred to as LLMCRS, to address the above challenges. For sub-task management, we leverage the reasoning ability of LLM to effectively manage sub-task. For sub-task solving, we collaborate LLM with expert models of different sub-tasks to achieve the enhanced performance. For response generation, we utilize the generation ability of LLM as a language interface to better interact with users. Specifically, LLMCRS divides the workflow into four stages: sub-task detection, model matching, sub-task execution, and response generation. LLMCRS also designs schema-based instruction, demonstration-based instruction, dynamic sub-task and model matching, and summary-based generation to instruct LLM to generate desired results in the workflow. Finally, to adapt LLM to conversational recommendations, we also propose to fine-tune LLM with reinforcement learning from CRSs performance feedback, referred to as RLPF. Experimental results on benchmark datasets show that LLMCRS with RLPF outperforms the existing methods.
arxiv情報
著者 | Yue Feng,Shuchang Liu,Zhenghai Xue,Qingpeng Cai,Lantao Hu,Peng Jiang,Kun Gai,Fei Sun |
発行日 | 2023-08-11 16:30:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google