LLMRec: Benchmarking Large Language Models on Recommendation Task

要約

最近、ChatGPT などの大規模言語モデル (LLM) の急速な開発により、会話モデルの機能が強化され、NLP タスクが大幅に進歩しました。
ただし、推奨ドメインでの LLM の適用については十分に調査されていません。
このギャップを埋めるために、さまざまな推奨タスクで LLM のベンチマークを行うために設計された LLM ベースの推奨システムである LLMRec を提案します。
具体的には、ChatGPT、LLaMA、ChatGLM などのいくつかの一般的な既製 LLM を、評価予測、逐次推奨、直接推奨、説明の生成、レビューの要約を含む 5 つの推奨タスクでベンチマークします。
さらに、LLM の指示遵守能力を向上させるための教師あり微調整の有効性を調査します。
ベンチマーク結果は、LLM が逐次推奨や直接推奨などの精度ベースのタスクにおいて中程度の熟練度しか示さなかったことを示しています。
ただし、説明可能性ベースのタスクでは、最先端の手法と同等のパフォーマンスを実証しました。
また、さまざまなモデルによって生成されたコンテンツの品質をさらに評価するために定性的評価も実施しました。その結果、LLM が提供された情報を真に理解し、より明確で合理的な結果を生成できることがわかりました。
私たちは、このベンチマークが研究者にとって、レコメンデーションのパフォーマンスを向上させる際の LLM の可能性をさらに深く掘り下げるインスピレーションとして役立つことを望んでいます。
コード、処理されたデータ、ベンチマーク結果は、https://github.com/williamliujl/LLMRec で入手できます。

要約(オリジナル)

Recently, the fast development of Large Language Models (LLMs) such as ChatGPT has significantly advanced NLP tasks by enhancing the capabilities of conversational models. However, the application of LLMs in the recommendation domain has not been thoroughly investigated. To bridge this gap, we propose LLMRec, a LLM-based recommender system designed for benchmarking LLMs on various recommendation tasks. Specifically, we benchmark several popular off-the-shelf LLMs, such as ChatGPT, LLaMA, ChatGLM, on five recommendation tasks, including rating prediction, sequential recommendation, direct recommendation, explanation generation, and review summarization. Furthermore, we investigate the effectiveness of supervised finetuning to improve LLMs’ instruction compliance ability. The benchmark results indicate that LLMs displayed only moderate proficiency in accuracy-based tasks such as sequential and direct recommendation. However, they demonstrated comparable performance to state-of-the-art methods in explainability-based tasks. We also conduct qualitative evaluations to further evaluate the quality of contents generated by different models, and the results show that LLMs can truly understand the provided information and generate clearer and more reasonable results. We aspire that this benchmark will serve as an inspiration for researchers to delve deeper into the potential of LLMs in enhancing recommendation performance. Our codes, processed data and benchmark results are available at https://github.com/williamliujl/LLMRec.

arxiv情報

著者 Junling Liu,Chao Liu,Peilin Zhou,Qichen Ye,Dading Chong,Kang Zhou,Yueqi Xie,Yuwei Cao,Shoujin Wang,Chenyu You,Philip S. Yu
発行日 2023-08-23 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク