Whose wife is it anyway? Assessing bias against same-gender relationships in machine translation

要約

機械翻訳は、偏ったデータやアルゴリズムの影響を受けることが多く、システム出力に許容できないエラーが発生する可能性があります。
ジェンダー規範の偏りについては研究されているが、MTシステムが社会的関係に関する偏り(例えば「弁護士が妻にキスした」)をコード化しているかどうかについてはあまり知られていない。
我々は、いくつかの名詞性言語(スペイン語など)から抽出され、一般的な職業名詞で構成された生成されたテンプレート文を使用して、MT システムにおける同性関係に対するバイアスの程度を調査します。
3 つの人気のある MT サービスが、同じ性別のエンティティ間の関係に関する文を正確に翻訳できないことがわかりました。
誤り率は文脈によって大きく異なり、女性の割合が多い職業に言及した同性愛文は翻訳の精度が低くなります。
私たちはこの研究を、社会的関係に関する NLP システムの本質的なバイアスの評価におけるケーススタディとして提供します。

要約(オリジナル)

Machine translation often suffers from biased data and algorithms that can lead to unacceptable errors in system output. While bias in gender norms has been investigated, less is known about whether MT systems encode bias about social relationships, e.g., ‘the lawyer kissed her wife.’ We investigate the degree of bias against same-gender relationships in MT systems, using generated template sentences drawn from several noun-gender languages (e.g., Spanish) and comprised of popular occupation nouns. We find that three popular MT services consistently fail to accurately translate sentences concerning relationships between entities of the same gender. The error rate varies considerably based on the context, and same-gender sentences referencing high female-representation occupations are translated with lower accuracy. We provide this work as a case study in the evaluation of intrinsic bias in NLP systems with respect to social relationships.

arxiv情報

著者 Ian Stewart,Rada Mihalcea
発行日 2024-07-12 06:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク