要約
最近、大規模言語モデル (LLM) (GPT-4 など) は、推奨タスクにアプローチする可能性を含む、優れた汎用タスク解決能力を実証しました。
この研究の流れに沿って、この研究は、レコメンダー システムのランキング モデルとして機能する LLM の能力を調査することを目的としています。
まず、逐次インタラクション履歴を条件とし、他の候補生成モデルによって取得されたアイテムを候補として考慮し、推奨問題を条件付きランキングタスクとして形式化します。
LLM によるランキング タスクを解決するために、プロンプト テンプレートを慎重に設計し、広く使用されている 2 つのデータセットで広範な実験を実施しました。
私たちは、LLM には有望なゼロショット ランキング能力があるものの、(1) 過去のインタラクションの順序を認識するのに苦労し、(2) プロンプト内の人気や項目の位置によって偏りがある可能性があることを示しました。
特別に設計されたプロンプトおよびブートストラップ戦略を使用して、これらの問題を軽減できることを示します。
これらの洞察を備えたゼロショット LLM は、ランキング候補が複数の候補ジェネレーターによって取得された場合に、従来の推奨モデルに挑戦することもできます。
コードと処理されたデータセットは https://github.com/RUCAIBox/LLMRank で入手できます。
要約(オリジナル)
Recently, large language models (LLMs) (e.g., GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. We first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by other candidate generation models as candidates. To solve the ranking task by LLMs, we carefully design the prompting template and conduct extensive experiments on two widely-used datasets. We show that LLMs have promising zero-shot ranking abilities but (1) struggle to perceive the order of historical interactions, and (2) can be biased by popularity or item positions in the prompts. We demonstrate that these issues can be alleviated using specially designed prompting and bootstrapping strategies. Equipped with these insights, zero-shot LLMs can even challenge conventional recommendation models when ranking candidates are retrieved by multiple candidate generators. The code and processed datasets are available at https://github.com/RUCAIBox/LLMRank.
arxiv情報
著者 | Yupeng Hou,Junjie Zhang,Zihan Lin,Hongyu Lu,Ruobing Xie,Julian McAuley,Wayne Xin Zhao |
発行日 | 2024-01-24 04:41:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google