要約
大規模な言語モデル(LLMS)の最近の進歩により、アプリケーションは推奨システム(RecllMS)に可能になりましたが、人口統計学的および心理的ユーザーの側面全体の公平性に関する懸念は残っています。
LLMベースの推奨事項の公平性を体系的に評価するための新しい評価フレームワークであるFairvalを紹介します。
Fairvalは、性格特性を、性別、人種、年齢などの8つの敏感な人口統計属性と統合し、ユーザーレベルのバイアスの包括的な評価を可能にします。
音楽や映画の推奨事項で、ChatGPT 4oやGemini 1.5 Flashを含むモデルを評価します。
Fairvalの公平性メトリックであるPAFSは、ChATGPT 4oで最大0.9969、Gemini 1.5 Flashで0.9997を達成し、格差は34.79%に達します。
これらの結果は、迅速な感度における堅牢性の重要性を強調し、より包括的な推奨システムをサポートします。
要約(オリジナル)
Recent advances in Large Language Models (LLMs) have enabled their application to recommender systems (RecLLMs), yet concerns remain regarding fairness across demographic and psychological user dimensions. We introduce FairEval, a novel evaluation framework to systematically assess fairness in LLM-based recommendations. FairEval integrates personality traits with eight sensitive demographic attributes,including gender, race, and age, enabling a comprehensive assessment of user-level bias. We evaluate models, including ChatGPT 4o and Gemini 1.5 Flash, on music and movie recommendations. FairEval’s fairness metric, PAFS, achieves scores up to 0.9969 for ChatGPT 4o and 0.9997 for Gemini 1.5 Flash, with disparities reaching 34.79 percent. These results highlight the importance of robustness in prompt sensitivity and support more inclusive recommendation systems.
arxiv情報
著者 | Chandan Kumar Sah,Xiaoli Lian,Tony Xu,Li Zhang |
発行日 | 2025-04-10 14:38:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google