要約
ドイツの機械翻訳(MT)システムでの職業上のステレオタイプ化と過小評価を評価するために設計された新しい性別バイアス評価テストセットであるWinomtdeを提示します。
ARXIVによって導入された自動評価方法の構築:1906.00591V1、私たちは文法的な性別を持つ言語であるドイツ語にアプローチを拡張します。
Winomtdeデータセットは、性別に関してバランスが取れている288のドイツ文と、ドイツの労働統計を使用して注釈が付けられたステレオタイプで構成されています。
広く使用されている5つのMTシステムと大規模な言語モデルの大規模な評価を実施しています。
私たちの結果は、ほとんどのモデルで持続的なバイアスを明らかにしており、LLMは従来のシステムを上回っています。
データセットと評価コードは、https://github.com/michellekappl/mt_gender_germanで公開されています。
要約(オリジナル)
We present WinoMTDE, a new gender bias evaluation test set designed to assess occupational stereotyping and underrepresentation in German machine translation (MT) systems. Building on the automatic evaluation method introduced by arXiv:1906.00591v1, we extend the approach to German, a language with grammatical gender. The WinoMTDE dataset comprises 288 German sentences that are balanced in regard to gender, as well as stereotype, which was annotated using German labor statistics. We conduct a large-scale evaluation of five widely used MT systems and a large language model. Our results reveal persistent bias in most models, with the LLM outperforming traditional systems. The dataset and evaluation code are publicly available under https://github.com/michellekappl/mt_gender_german.
arxiv情報
| 著者 | Michelle Kappl |
| 発行日 | 2025-02-28 15:00:01+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google