要約
最近の成功した前提条件モデルに暗黙的にエンコードされた社会的バイアスを緩和するために、モデルの公平性を促進するための多様なアプローチが提案されており、プロンプト、データの増強、正規化された微調整などに焦点を当てています。
開発にもかかわらず、公平性の原則的な理解と、一貫してDebias言語モデルを可能にする効果的なアルゴリズムに到達することは自明ではありません。
この研究では、神経崩壊の厳密な評価 – 学習現象は、深いネットワークの最終層の表現と分類器で起こります – 公平性関連の言葉では、紛失した言語モデルがトークン表現と単語の埋め込みの間に崩壊したアライメントを示すことがわかります。
さらに重要なことに、この観察は、標準的な自然言語理解タスクで言語モデルのパフォーマンスを維持しながら、幅広い紛失方法の公平性を効果的に改善できる原則的な微調整方法を設計するように促します。
https://github.com/xujxyang/fairness-nc-mainでコードを添付します。
要約(オリジナル)
To mitigate societal biases implicitly encoded in recent successful pretrained language models, a diverse array of approaches have been proposed to encourage model fairness, focusing on prompting, data augmentation, regularized fine-tuning, and more. Despite the development, it is nontrivial to reach a principled understanding of fairness and an effective algorithm that can consistently debias language models. In this work, by rigorous evaluations of Neural Collapse — a learning phenomenon happen in last-layer representations and classifiers in deep networks — on fairness-related words, we find that debiased language models exhibit collapsed alignment between token representations and word embeddings. More importantly, this observation inspires us to design a principled fine-tuning method that can effectively improve fairness in a wide range of debiasing methods, while still preserving the performance of language models on standard natural language understanding tasks. We attach our code at https://github.com/Xujxyang/Fairness-NC-main.
arxiv情報
著者 | Jingxuan Xu,Wuyang Chen,Linyi Li,Yao Zhao,Yunchao Wei |
発行日 | 2025-01-29 13:30:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google