要約
大規模言語モデル(Large Language Models: LLM)の目覚ましい活躍により、新しい推薦パラダイムであるLLM経由の推薦(RecLLM)が出現している。しかし、LLMには社会的な偏見が含まれている可能性があり、RecLLMによる推薦の公平性についてはさらなる検討が必要である。RecLLMの潜在的なリスクを回避するためには、ユーザー側の様々な敏感な属性に関してRecLLMの公正さを評価することが不可欠である。RecLLMパラダイムと従来の推薦パラダイムの違いにより、従来の推薦の公平性ベンチマークを直接利用することは問題がある。このジレンマに対処するため、我々は、LLMによる推薦の公平性(FaiRLLM)と呼ばれる新しいベンチマークを提案する。このベンチマークは、音楽と映画という2つの推薦シナリオにおいて、慎重に作成された指標と8つの敏感な属性1 を考慮したデータセットで構成されています。FaiRLLMベンチマークを利用して、ChatGPTの評価を行ったところ、レコメンデーション生成時に一部のセンシティブな属性に対して不公平感があることがわかりました。我々のコードとデータセットは、https://github.com/jizhi-zhang/FaiRLLM に掲載されています。
要約(オリジナル)
The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm — Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.
arxiv情報
著者 | Jizhi Zhang,Keqin Bao,Yang Zhang,Wenjie Wang,Fuli Feng,Xiangnan He |
発行日 | 2023-05-12 16:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |