Evaluating ChatGPT as a Recommender System: A Rigorous Approach

要約

大規模言語モデル (LLM) は、最近、さまざまな自然言語関連タスクの処理において優れた能力を示しています。
現在の研究では、さまざまな LLM の中でも、特にゼロ/数ショット プロンプト条件下で、さまざまなタスクにわたって ChatGPT の優れたパフォーマンスが評価されています。
このような成功を受けて、レコメンダー システム (RS) 研究コミュニティは、レコメンデーション シナリオ内での潜在的なアプリケーションの調査を開始しました。
しかし、ChatGPT の機能を RS に統合するためのさまざまな方法が提案されていますが、現在の研究では、生成モデルの特性を考慮しながらそのようなモデルを包括的に評価するのに苦労しています。
多くの場合、評価では幻覚、重複、および閉じられた領域外の推奨事項は考慮されず、精度の指標のみに焦点が当てられ、精度を超えた側面への影響は無視されます。
このギャップを埋めるために、RS としての ChatGPT の能力を評価する堅牢な評価パイプラインと、これらの側面を考慮した後処理 ChatGPT 推奨事項を提案します。
このパイプラインを通じて、ロールプレイング プロンプトを使用したゼロショット条件下でのレコメンデーション タスクにおける ChatGPT-3.5 および ChatGPT-4 のパフォーマンスを調査します。
トップ N レコメンデーション、コールドスタート レコメンデーション、レコメンデーション リストの再ランキングの 3 つの設定と、映画、音楽、書籍の 3 つのドメインでモデルの機能を分析します。
実験により、ChatGPT が書籍ドメインのベースラインよりも高い精度を示すことが明らかになりました。
また、妥当な精度を超えるメトリクスを維持しながら、再ランキングやコールドスタートのシナリオにも優れています。
さらに、ChatGPT レコメンデーションと他のレコメンダーとの類似性を測定し、ChatGPT がレコメンダー システムの領域でどのように分類されるかについての洞察を提供します。
評価パイプラインは将来の研究のために公開されます。

要約(オリジナル)

Large Language Models (LLMs) have recently shown impressive abilities in handling various natural language-related tasks. Among different LLMs, current studies have assessed ChatGPT’s superior performance across manifold tasks, especially under the zero/few-shot prompting conditions. Given such successes, the Recommender Systems (RSs) research community have started investigating its potential applications within the recommendation scenario. However, although various methods have been proposed to integrate ChatGPT’s capabilities into RSs, current research struggles to comprehensively evaluate such models while considering the peculiarities of generative models. Often, evaluations do not consider hallucinations, duplications, and out-of-the-closed domain recommendations and solely focus on accuracy metrics, neglecting the impact on beyond-accuracy facets. To bridge this gap, we propose a robust evaluation pipeline to assess ChatGPT’s ability as an RS and post-process ChatGPT recommendations to account for these aspects. Through this pipeline, we investigate ChatGPT-3.5 and ChatGPT-4 performance in the recommendation task under the zero-shot condition employing the role-playing prompt. We analyze the model’s functionality in three settings: the Top-N Recommendation, the cold-start recommendation, and the re-ranking of a list of recommendations, and in three domains: movies, music, and books. The experiments reveal that ChatGPT exhibits higher accuracy than the baselines on books domain. It also excels in re-ranking and cold-start scenarios while maintaining reasonable beyond-accuracy metrics. Furthermore, we measure the similarity between the ChatGPT recommendations and the other recommenders, providing insights about how ChatGPT could be categorized in the realm of recommender systems. The evaluation pipeline is publicly released for future research.

arxiv情報

著者 Dario Di Palma,Giovanni Maria Biancofiore,Vito Walter Anelli,Fedelucio Narducci,Tommaso Di Noia,Eugenio Di Sciascio
発行日 2024-06-04 14:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク