Exploiting Biased Models to De-bias Text: A Gender-Fair Rewriting Model


自然言語生成モデルは、トレーニング データに存在するバイアスを再現し、多くの場合増幅します。
以前の研究では、言語ルールに従って疑似トレーニング データを作成することにより、偏ったモデル出力 (または元のテキスト) をよりジェンダー公平な言語に変換するために、シーケンスからシーケンスへの書き換えモデルを使用することが検討されていました。
私たちは、形態学的に複雑な言語では、逆方向、つまりジェンダー公平なテキストから開始してトレーニング データを作成する方が簡単であると仮説を立て、それが英語の最先端の書き換えモデルのパフォーマンスと一致することを示します。


Natural language generation models reproduce and often amplify the biases present in their training data. Previous research explored using sequence-to-sequence rewriting models to transform biased model outputs (or original texts) into more gender-fair language by creating pseudo training data through linguistic rules. However, this approach is not practical for languages with more complex morphology than English. We hypothesise that creating training data in the reverse direction, i.e. starting from gender-fair text, is easier for morphologically complex languages and show that it matches the performance of state-of-the-art rewriting models for English. To eliminate the rule-based nature of data creation, we instead propose using machine translation models to create gender-biased text from real gender-fair text via round-trip translation. Our approach allows us to train a rewriting model for German without the need for elaborate handcrafted rules. The outputs of this model increased gender-fairness as shown in a human evaluation study.


著者 Chantal Amrhein,Florian Schottmann,Rico Sennrich,Samuel Läubli
発行日 2023-05-18 17:35:28+00:00
arxivサイト arxiv_id(pdf)

