Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation

要約

私たちは、これまでの研究ではほとんど見落とされてきた側面である、機械翻訳におけるジェンダーバイアスに対するトークン化の影響を研究します。
具体的には、トレーニング データ内の性別付き職業名の頻度、サブワード トークナイザーの語彙での表現、および性別バイアスの間の相互作用に焦点を当てます。
職業名の女性および非定型的な性別の語形変化 (例: スペイン語の「doctora」で「女性医師」) は、複数のサブワード トークンに分割される傾向があることが観察されています。
私たちの結果は、モデルのトレーニング コーパスにおける性別形式の不均衡が性別バイアスに寄与する主要な要因であり、サブワード分割よりも大きな影響を与えることを示しています。
サブワード分割を分析すると、トレーニング データ内の性別と形式の不均衡を適切に推定でき、コーパスが公開されていない場合でも使用できることを示します。
また、トークン埋め込み層のみを微調整することで、翻訳品質を損なうことなく、女性形式と男性形式の間の性別予測精度の差を縮小できることも示します。

要約(オリジナル)

We study the effect of tokenization on gender bias in machine translation, an aspect that has been largely overlooked in previous works. Specifically, we focus on the interactions between the frequency of gendered profession names in training data, their representation in the subword tokenizer’s vocabulary, and gender bias. We observe that female and non-stereotypical gender inflections of profession names (e.g., Spanish ‘doctora’ for ‘female doctor’) tend to be split into multiple subword tokens. Our results indicate that the imbalance of gender forms in the model’s training corpus is a major factor contributing to gender bias and has a greater impact than subword splitting. We show that analyzing subword splits provides good estimates of gender-form imbalance in the training data and can be used even when the corpus is not publicly available. We also demonstrate that fine-tuning just the token embedding layer can decrease the gap in gender prediction accuracy between female and male forms without impairing the translation quality.

arxiv情報

著者 Bar Iluz,Tomasz Limisiewicz,Gabriel Stanovsky,David Mareček
発行日 2023-09-30 19:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク