The SAME score: Improved cosine based bias score for word embeddings

要約

大規模な言語モデルが非常に人気があるため、多くの研究者が、そのようなモデルに組み込まれた社会的偏見に関して倫理的な懸念を提起しています。
社会的バイアスを測定する方法はいくつか紹介されていますが、どうやらこれらの方法はバイアスの有無や程度に関して必ずしも一致しているわけではありません。
さらに、一部の研究では、特定のバイアス尺度に理論的問題や重大な制限が示されています。
そのため、埋め込みにおける意味論的なバイアスのための新しいバイアス スコアである SAME を導入します。
私たちは徹底的な理論分析と実験を実施して、文献からの同様のバイアススコアと比較してその利点を示します。
さらに、SAMEによって測定された意味論的バイアスと下流バイアスとの実質的な関係を強調しますが、この関連性は最近無視できるものであると主張されています。
代わりに、SAME が意味論的なバイアスを測定し、下流のタスクにおける社会的バイアスの潜在的な原因を特定できることを示します。

要約(オリジナル)

With the enourmous popularity of large language models, many researchers have raised ethical concerns regarding social biases incorporated in such models. Several methods to measure social bias have been introduced, but apparently these methods do not necessarily agree regarding the presence or severity of bias. Furthermore, some works have shown theoretical issues or severe limitations with certain bias measures. For that reason, we introduce SAME, a novel bias score for semantic bias in embeddings. We conduct a thorough theoretical analysis as well as experiments to show its benefits compared to similar bias scores from the literature. We further highlight a substantial relation of semantic bias measured by SAME with downstream bias, a connection that has recently been argued to be negligible. Instead, we show that SAME is capable of measuring semantic bias and identify potential causes for social bias in downstream tasks.

arxiv情報

著者 Sarah Schröder,Alexander Schulz,Barbara Hammer
発行日 2024-09-12 08:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク