Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information

要約

社会的バイアスを軽減するには、通常、各データ サンプルに関連付けられた社会的グループを特定する必要があります。
この論文では、言語モデルにおける社会的偏見に対処する新しいアプローチである DAFair を紹介します。
明示的な人口統計ラベルに依存する従来の方法とは異なり、私たちのアプローチではそのような情報は必要ありません。
代わりに、事前定義されたプロトタイプの人口統計テキストを活用し、微調整プロセス中に正則化項を組み込んで、モデルの表現におけるバイアスを軽減します。
2 つのタスクと 2 つのモデルにわたる経験的な結果は、ラベル付きデータに依存しない以前のアプローチと比較して、私たちの方法の有効性を示しています。
さらに、人口統計の注釈が付けられたデータが限られているため、私たちのアプローチは一般的なバイアス軽減アプローチよりも優れています。

要約(オリジナル)

Mitigating social biases typically requires identifying the social groups associated with each data sample. In this paper, we present DAFair, a novel approach to address social bias in language models. Unlike traditional methods that rely on explicit demographic labels, our approach does not require any such information. Instead, we leverage predefined prototypical demographic texts and incorporate a regularization term during the fine-tuning process to mitigate bias in the model’s representations. Our empirical results across two tasks and two models demonstrate the effectiveness of our method compared to previous approaches that do not rely on labeled data. Moreover, with limited demographic-annotated data, our approach outperforms common debiasing approaches.

arxiv情報

著者 Shadi Iskander,Kira Radinsky,Yonatan Belinkov
発行日 2024-03-14 15:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク