From Prejudice to Parity: A New Approach to Debiasing Large Language Model Word Embeddings

要約

埋め込みは、大規模言語モデルの有効性において極めて重要な役割を果たします。
これらは、これらのモデルが文脈上の関係を把握し、言語のより微妙な理解を促進するための基盤であり、その結果、人間の言語の基本的な理解を必要とする多数の複雑なタスクで顕著に機能します。
これらの埋め込み自体がバイアスを反映または示していることが多いことを考えると、これらのモデルもこのバイアスを誤って学習する可能性があることは当然です。
この研究では、独創的な以前の研究に基づいて、ニューラル ネットワークを使用して「ソフト デバイアス」を実行するアルゴリズムである DeepSoftDebias を提案します。
私たちは、さまざまな SOTA データセット、精度メトリクス、および困難な NLP タスクにわたってこのアルゴリズムを徹底的に評価します。
DeepSoftDebias は、性別、人種、宗教にわたる偏見を軽減する点で、現在の最先端の方法よりも優れていることがわかりました。

要約(オリジナル)

Embeddings play a pivotal role in the efficacy of Large Language Models. They are the bedrock on which these models grasp contextual relationships and foster a more nuanced understanding of language and consequently perform remarkably on a plethora of complex tasks that require a fundamental understanding of human language. Given that these embeddings themselves often reflect or exhibit bias, it stands to reason that these models may also inadvertently learn this bias. In this work, we build on the seminal previous work and propose DeepSoftDebias, an algorithm that uses a neural network to perform ‘soft debiasing’. We exhaustively evaluate this algorithm across a variety of SOTA datasets, accuracy metrics, and challenging NLP tasks. We find that DeepSoftDebias outperforms the current state-of-the-art methods at reducing bias across gender, race, and religion.

arxiv情報

著者 Aishik Rakshit,Smriti Singh,Shuvam Keshari,Arijit Ghosh Chowdhury,Vinija Jain,Aman Chadha
発行日 2024-04-16 16:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク