Evaluating ChatGPT as a Recommender System: A Rigorous Approach

要約

最近では、その優れた自然言語機能により、大規模な AI 言語モデルが人気を集めています。
これらはプロンプトベースの学習などの言語関連のタスクに大きく貢献し、さまざまな特定のタスクにとって価値があります。
このアプローチは、その可能性を最大限に引き出し、精度と汎用性を高めます。
研究コミュニティはそのアプリケーションを積極的に研究しており、ChatGPT は評価を受けています。
大規模な言語モデルに関する広範な研究にもかかわらず、レコメンデーション シナリオにおけるその可能性はまだ探究する必要があります。
この研究は、ゼロショット レコメンダー システムとしての ChatGPT の機能を調査することで、このギャップを埋めることを目的としています。
私たちの目標には、推奨事項にユーザーの好みを使用する能力の評価、既存の推奨事項リストの並べ替え、類似ユーザーからの情報の活用、コールドスタート状況の処理などが含まれます。
3 つのデータセット (MovieLens Small、Last.FM、Facebook Book) を使用した包括的な実験を通じて ChatGPT のパフォーマンスを評価します。
ChatGPT のパフォーマンスを、標準の推奨アルゴリズムや、GPT-3.5 や PaLM-2 などの他の大規模言語モデルと比較します。
レコメンデーションの有効性を測定するために、平均平均精度 (MAP)、再現率、精度、F1、正規化割引累積ゲイン (nDCG)、アイテム カバレッジ、期待人気度補数 (EPC)、ロングテールの平均カバレッジ (
ACLT)、平均推奨人気度(ARP)、および人気ベースのランキングベースの機会均等(PopREO)。
私たちの研究は、レコメンダー システムにおける ChatGPT の機能を徹底的に調査することにより、大規模な言語モデルの汎用性と潜在的な応用に関する研究の増加に貢献することを目的としています。
私たちの実験コードは GitHub リポジトリで入手できます: https://github.com/sisinflab/Recommender-ChatGPT

要約(オリジナル)

Recent popularity surrounds large AI language models due to their impressive natural language capabilities. They contribute significantly to language-related tasks, including prompt-based learning, making them valuable for various specific tasks. This approach unlocks their full potential, enhancing precision and generalization. Research communities are actively exploring their applications, with ChatGPT receiving recognition. Despite extensive research on large language models, their potential in recommendation scenarios still needs to be explored. This study aims to fill this gap by investigating ChatGPT’s capabilities as a zero-shot recommender system. Our goals include evaluating its ability to use user preferences for recommendations, reordering existing recommendation lists, leveraging information from similar users, and handling cold-start situations. We assess ChatGPT’s performance through comprehensive experiments using three datasets (MovieLens Small, Last.FM, and Facebook Book). We compare ChatGPT’s performance against standard recommendation algorithms and other large language models, such as GPT-3.5 and PaLM-2. To measure recommendation effectiveness, we employ widely-used evaluation metrics like Mean Average Precision (MAP), Recall, Precision, F1, normalized Discounted Cumulative Gain (nDCG), Item Coverage, Expected Popularity Complement (EPC), Average Coverage of Long Tail (ACLT), Average Recommendation Popularity (ARP), and Popularity-based Ranking-based Equal Opportunity (PopREO). Through thoroughly exploring ChatGPT’s abilities in recommender systems, our study aims to contribute to the growing body of research on the versatility and potential applications of large language models. Our experiment code is available on the GitHub repository: https://github.com/sisinflab/Recommender-ChatGPT

arxiv情報

著者 Dario Di Palma,Giovanni Maria Biancofiore,Vito Walter Anelli,Fedelucio Narducci,Tommaso Di Noia,Eugenio Di Sciascio
発行日 2023-09-07 10:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク