Downstream bias mitigation is all you need

要約

トランスフォーマーベースのアーキテクチャと大規模言語モデル (LLM) の出現により、自然言語処理 (NLP) モデルのパフォーマンスが大幅に向上しました。
これらの LLM は、Web やその他のソースからの膨大なデータ コーパスに基づいてトレーニングされるため、データから潜在的に転送される可能性のある有害な偏見について大きな懸念がありました。
多くのアプリケーションでは、これらの事前トレーニング済み LLM はタスク固有のデータセットに基づいて微調整されており、バイアスがさらに大きくなる可能性があります。
この論文では、事前トレーニング中に LLM によって吸収されるバイアスの程度と、微調整後のタスク固有の動作について研究します。
微調整前の事前トレーニング済み LLM に対する制御された介入は、分類器のバイアスを下げる効果が最小限であることがわかりました。
ただし、ドメイン固有のデータセットに存在するバイアスの方がはるかに大きな役割を果たすため、この段階でバイアスを軽減することの方が大きな影響を及ぼします。
事前トレーニングは重要ですが、モデルが事前トレーニングされた後は、微調整データセット内の共起率のわずかな変化でさえ、モデルのバイアスに大きな影響を与えます。

要約(オリジナル)

The advent of transformer-based architectures and large language models (LLMs) have significantly advanced the performance of natural language processing (NLP) models. Since these LLMs are trained on huge corpuses of data from the web and other sources, there has been a major concern about harmful prejudices that may potentially be transferred from the data. In many applications, these pre-trained LLMs are fine-tuned on task specific datasets, which can further contribute to biases. This paper studies the extent of biases absorbed by LLMs during pre-training as well as task-specific behaviour after fine-tuning. We found that controlled interventions on pre-trained LLMs, prior to fine-tuning, have minimal effect on lowering biases in classifiers. However, the biases present in domain-specific datasets play a much bigger role, and hence mitigating them at this stage has a bigger impact. While pre-training does matter, but after the model has been pre-trained, even slight changes to co-occurrence rates in the fine-tuning dataset has a significant effect on the bias of the model.

arxiv情報

著者 Arkadeep Baksi,Rahul Singh,Tarun Joshi
発行日 2024-08-28 14:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク