要約
タスクに依存しないバイアス緩和は、顕著な一般化性と下流データへの依存度の低下をもたらしますが、言語モデリング能力への影響と、下流のタスク固有データから社会的バイアスを再学習するリスクが、事前学習済み言語モデル (PLM) のバイアスを緩和する際の 2 つの最も重要な課題として残ります。
高品質で長期にわたって文脈化されたバイアス除去コーパスがあれば、言語モデリング能力への影響は軽減できますが、再学習バイアスの詳細を理解することは依然として不十分です。
我々は、タスクに依存しないバイアス除去の有効性は、下流のアプリケーションに使用されるタスク固有のデータとバイアス除去されたモデルの両方の量的バイアス レベルに依存することを経験的に確認しています。
ほとんどの実際的なケースでは、下流の微調整モデルのバイアス レベルの下限は、バイアス除去モデルのバイアス レベルで近似できることが経験的に示されています。
PLM の忘却問題により微調整中に PLM のパラメータがどのように変化するかをより深く理解するために、社会的に公平なバイアス除去を下流の微調整に伝播できる新しいフレームワークである ProSocialTuning を提案します。
私たちが提案したフレームワークは、下流の微調整中に微調整されたモデルをバイアスの下限に近づけることができます。これは、バイアス除去に成功したアテンションヘッドを、
事前トレーニングとバイアス除去の段階。
要約(オリジナル)
While task-agnostic debiasing provides notable generalizability and reduced reliance on downstream data, its impact on language modeling ability and the risk of relearning social biases from downstream task-specific data remain as the two most significant challenges when debiasing Pretrained Language Models (PLMs). The impact on language modeling ability can be alleviated given a high-quality and long-contextualized debiasing corpus, but there remains a deficiency in understanding the specifics of relearning biases. We empirically ascertain that the effectiveness of task-agnostic debiasing hinges on the quantitative bias level of both the task-specific data used for downstream applications and the debiased model. We empirically show that the lower bound of the bias level of the downstream fine-tuned model can be approximated by the bias level of the debiased model, in most practical cases. To gain more in-depth understanding about how the parameters of PLMs change during fine-tuning due to the forgetting issue of PLMs, we propose a novel framework which can Propagate Socially-fair Debiasing to Downstream Fine-tuning, ProSocialTuning. Our proposed framework can push the fine-tuned model to approach the bias lower bound during downstream fine-tuning, indicating that the ineffectiveness of debiasing can be alleviated by overcoming the forgetting issue through regularizing successfully debiased attention heads based on the PLMs’ bias levels from stages of pretraining and debiasing.
arxiv情報
著者 | Guangliang Liu,Milad Afshari,Xitong Zhang,Zhiyu Xue,Avrajit Ghosh,Bidhan Bashyal,Rongrong Wang,Kristen Johnson |
発行日 | 2024-06-06 15:11:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google