要約
変換器ベースのアーキテクチャと大規模言語モデル(LLM)の登場により、自然言語処理(NLP)モデルの性能が大幅に向上した。これらのLLMは、ウェブやその他のソースからの膨大なコーパスのデータで学習されるため、データから潜在的に伝達される可能性のある有害な偏見について大きな懸念があった。多くのアプリケーションでは、これらの事前訓練されたLLMはタスクに特化したデータセットで微調整されるため、バイアスをさらに助長する可能性がある。本論文では、事前訓練中にLLMが吸収したバイアスの程度と、ファインチューニング後のタスク固有の振る舞いについて研究する。その結果、ファインチューニングの前に、事前に訓練されたLLMに対して制御介入を行っても、分類器のバイアスを低下させる効果はほとんどないことがわかった。しかし、ドメイン固有のデータセットに存在するバイアスはより大きな役割を果たすため、この段階でバイアスを軽減することはより大きな影響を与える。事前学習は重要であるが、モデルが事前学習された後では、ファインチューニング・データセットにおける共起率のわずかな変化でさえ、モデルのバイアスに大きな影響を与える。
要約(オリジナル)
The advent of transformer-based architectures and large language models (LLMs) have significantly advanced the performance of natural language processing (NLP) models. Since these LLMs are trained on huge corpuses of data from the web and other sources, there has been a major concern about harmful prejudices that may potentially be transferred from the data. In many applications, these pre-trained LLMs are fine-tuned on task specific datasets, which can further contribute to biases. This paper studies the extent of biases absorbed by LLMs during pre-training as well as task-specific behaviour after fine-tuning. We found that controlled interventions on pre-trained LLMs, prior to fine-tuning, have minimal effect on lowering biases in classifiers. However, the biases present in domain-specific datasets play a much bigger role, and hence mitigating them at this stage has a bigger impact. While pre-training does matter, but after the model has been pre-trained, even slight changes to co-occurrence rates in the fine-tuning dataset has a significant effect on the bias of the model.
arxiv情報
| 著者 | Arkadeep Baksi,Rahul Singh,Tarun Joshi | 
| 発行日 | 2024-08-01 14:52:04+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
