Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs

要約

推奨システム(RECSYS)は、さまざまな最新のデジタルプラットフォームで広く使用されており、大きな注目を集めています。
従来の推奨システムは通常、固定された単純な推奨シナリオにのみ焦点を当てているため、インタラクティブなパラダイムで新しい目に見えない推奨タスクに一般化することが困難です。
最近、大規模な言語モデル(LLMS)の進歩は、Recsysの基本的なアーキテクチャに革命をもたらし、進化をよりインテリジェントでインタラクティブなパーソナライズされた推奨アシスタントに駆り立てています。
ただし、ほとんどの既存の研究は、固定されたタスク固有のプロンプトテンプレートに依存して推奨事項を生成し、パーソナライズされたアシスタントのパフォーマンスを評価します。これにより、能力の包括的な評価が制限されます。
これは、一般的に使用されるデータセットには、実際の推奨シナリオを反映する高品質のテキストユーザークエリがなく、LLMベースのパーソナライズされた推奨アシスタントの評価には適さないためです。
このギャップに対処するために、LLMSの時代に複雑なユーザー推奨ニーズを処理するLLMSの機能にアクセスするように設計された新しいデータセットベンチマークであるRecbench+を紹介します。
Recench+は、難易度レベルが異なる、硬い条件とソフトな好みの両方に及ぶ多様なクエリのセットを網羅しています。
我々は、レコーシンチ+で一般的に使用されているLLMを評価し、調査結果を以下に発見しました。1)LLMSは推奨アシスタントとして機能する予備的な能力を示し、2)LLMSは、明示的に述べられた条件を持つクエリを処理する方が優れていますが、推論を必要とするクエリまたは誤った情報を含むクエリの課題に直面します。
データセットはhttps://github.com/jiani-huang/recbench.gitでリリースされました。

要約(オリジナル)

Recommender systems (RecSys) are widely used across various modern digital platforms and have garnered significant attention. Traditional recommender systems usually focus only on fixed and simple recommendation scenarios, making it difficult to generalize to new and unseen recommendation tasks in an interactive paradigm. Recently, the advancement of large language models (LLMs) has revolutionized the foundational architecture of RecSys, driving their evolution into more intelligent and interactive personalized recommendation assistants. However, most existing studies rely on fixed task-specific prompt templates to generate recommendations and evaluate the performance of personalized assistants, which limits the comprehensive assessments of their capabilities. This is because commonly used datasets lack high-quality textual user queries that reflect real-world recommendation scenarios, making them unsuitable for evaluating LLM-based personalized recommendation assistants. To address this gap, we introduce RecBench+, a new dataset benchmark designed to access LLMs’ ability to handle intricate user recommendation needs in the era of LLMs. RecBench+ encompasses a diverse set of queries that span both hard conditions and soft preferences, with varying difficulty levels. We evaluated commonly used LLMs on RecBench+ and uncovered below findings: 1) LLMs demonstrate preliminary abilities to act as recommendation assistants, 2) LLMs are better at handling queries with explicitly stated conditions, while facing challenges with queries that require reasoning or contain misleading information. Our dataset has been released at https://github.com/jiani-huang/RecBench.git.

arxiv情報

著者 Jiani Huang,Shijie Wang,Liang-bo Ning,Wenqi Fan,Shuaiqiang Wang,Dawei Yin,Qing Li
発行日 2025-03-12 13:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク