AGR: Age Group fairness Reward for Bias Mitigation in LLMs

要約

LLM は年齢バイアスを示す可能性があり、その結果、年齢グループ全体で個人が不平等に扱われることになります。
人種や性別の偏見については多くの研究が取り上げられてきましたが、年齢による偏見についてはほとんど調査されていません。
年齢バイアスに関する指示調整および嗜好データセットが不足しているため、その検出と測定が妨げられており、既存の微調整方法では年齢に関連した公平性に対処することはほとんどありません。
この論文では、RLHF の年齢バイアス選好データセットと命令調整データセットを構築します。
さまざまな年齢グループ間での LLM の応答品質の差を減らすための年齢公平性報酬である ARG を導入します。
広範な実験により、この報酬により応答精度が大幅に向上し、年齢グループ間のパフォーマンス格差が減少することが実証されています。
私たちのソース コードとデータセットは、匿名の \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link} で入手できます。

要約(オリジナル)

LLMs can exhibit age biases, resulting in unequal treatment of individuals across age groups. While much research has addressed racial and gender biases, age bias remains little explored. The scarcity of instruction-tuning and preference datasets for age bias hampers its detection and measurement, and existing fine-tuning methods seldom address age-related fairness. In this paper, we construct age bias preference datasets and instruction-tuning datasets for RLHF. We introduce ARG, an age fairness reward to reduce differences in the response quality of LLMs across different age groups. Extensive experiments demonstrate that this reward significantly improves response accuracy and reduces performance disparities across age groups. Our source code and datasets are available at the anonymous \href{https://anonymous.4open.science/r/FairRLHF-D445/readme.md}{link}.

arxiv情報

著者 Shuirong Cao,Ruoxi Cheng,Zhiqiang Wang
発行日 2024-09-06 15:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク