A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for Fairer Instruction-Tuned Machine Translation

要約

最近の命令を微調整したモデルは、プロンプトが出されたら複数の NLP タスクを解決できます。その際、機械翻訳 (MT) が顕著な使用例となります。
しかし、現在の研究は多くの場合、標準的なパフォーマンス ベンチマークに焦点を当てており、説得力のある公平性や倫理的考慮事項は後回しにされています。
MT では、これが誤った性別の翻訳につながる可能性があり、その結果、とりわけ固定観念や偏見が永続する弊害が生じます。
この研究では、そのようなモデルが機械翻訳においてジェンダーバイアスを示すかどうか、またその程度、またそれを軽減する方法を調査することで、このギャップに対処します。
具体的には、英語からドイツ語、スペイン語までの WinoMT コーパス上で確立されたジェンダー バイアス指標を計算します。
私たちは、IFT モデルが女性の職業上のステレオタイプを無視して、デフォルトで男性を活用した翻訳を行っていることを発見しました。
次に、解釈可能性手法を使用して、モデルが、性別を誤った翻訳において対象となる職業の性別を示す代名詞を系統的に見落としていることを明らかにします。
最後に、この発見に基づいて、大幅に公平な翻訳につながる、少数ショット学習に基づく実装が簡単で効果的なバイアス軽減ソリューションを提案します。

要約(オリジナル)

Recent instruction fine-tuned models can solve multiple NLP tasks when prompted to do so, with machine translation (MT) being a prominent use case. However, current research often focuses on standard performance benchmarks, leaving compelling fairness and ethical considerations behind. In MT, this might lead to misgendered translations, resulting, among other harms, in the perpetuation of stereotypes and prejudices. In this work, we address this gap by investigating whether and to what extent such models exhibit gender bias in machine translation and how we can mitigate it. Concretely, we compute established gender bias metrics on the WinoMT corpus from English to German and Spanish. We discover that IFT models default to male-inflected translations, even disregarding female occupational stereotypes. Next, using interpretability methods, we unveil that models systematically overlook the pronoun indicating the gender of a target occupation in misgendered translations. Finally, based on this finding, we propose an easy-to-implement and effective bias mitigation solution based on few-shot learning that leads to significantly fairer translations.

arxiv情報

著者 Giuseppe Attanasio,Flor Miriam Plaza-del-Arco,Debora Nozza,Anne Lauscher
発行日 2023-10-18 17:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク