要約
大規模言語モデル (LLM) の目覚ましい成果により、新しいレコメンデーション パラダイム、LLM によるレコメンデーション (RecLLM) が出現しました。
ただし、LLM には社会的偏見が含まれている可能性があるため、RecLLM による推奨の公平性についてはさらなる調査が必要であることに注意することが重要です。
RecLLM の潜在的なリスクを回避するには、ユーザー側のさまざまな機密属性に関して RecLLM の公平性を評価することが不可欠です。
RecLLM パラダイムと従来の推奨パラダイムの違いにより、従来の推奨の公平性ベンチマークを直接使用することには問題があります。
このジレンマに対処するために、LLM による推奨の公平性 (FaiRLLM) と呼ばれる新しいベンチマークを提案します。
このベンチマークは、慎重に作成された指標と、音楽と映画という 2 つの推奨シナリオにおける 8 つの機密属性 1 を考慮したデータセットで構成されています。
FaiRLLM ベンチマークを利用して ChatGPT の評価を実施したところ、推奨事項を生成する際に依然として一部の機密属性に対して不公平性が見られることが判明しました。
私たちのコードとデータセットは https://github.com/jizhi-zhang/FaiRLLM にあります。
要約(オリジナル)
The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm — Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.
arxiv情報
著者 | Jizhi Zhang,Keqin Bao,Yang Zhang,Wenjie Wang,Fuli Feng,Xiangnan He |
発行日 | 2023-10-17 13:29:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google