要約
機械翻訳 (MT) の品質と採用は向上し続けていますが、ジェンダーバイアスの不注意による永続化は依然として大きな懸念事項です。
トルコ語のような性差のない言語から英語のようなより性差の強い言語への翻訳における性差に関する多くの研究があるにもかかわらず、この現象を評価したり、緩和戦略を評価したりするためのベンチマークはありません。
このギャップに対処するために、GATE (Rarrick et al., 2023) コーパスの拡張機能である GATE X-E を導入します。これは、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への人による翻訳で構成されています。
各翻訳には、考えられる性別の解釈ごとに、女性的、男性的、および中立的なバリアントが付いています。
このデータセットには、4 つの言語ペアごとに 1250 ~ 1850 のインスタンスが含まれており、幅広い文の長さとドメインを持つ自然な文が特徴であり、さまざまな言語現象に関する翻訳リライターの挑戦となります。
さらに、GPT-3.5 Turbo に基づいて構築された英語の性別書き換えソリューションを紹介し、GATE X-E を使用してそれを評価します。
私たちは、ジェンダーの偏見解消に関するさらなる研究を奨励するために、貢献をオープンソースにしています。
要約(オリジナル)
Machine Translation (MT) continues to improve in quality and adoption, yet the inadvertent perpetuation of gender bias remains a significant concern. Despite numerous studies into gender bias in translations from gender-neutral languages such as Turkish into more strongly gendered languages like English, there are no benchmarks for evaluating this phenomenon or for assessing mitigation strategies. To address this gap, we introduce GATE X-E, an extension to the GATE (Rarrick et al., 2023) corpus, that consists of human translations from Turkish, Hungarian, Finnish, and Persian into English. Each translation is accompanied by feminine, masculine, and neutral variants for each possible gender interpretation. The dataset, which contains between 1250 and 1850 instances for each of the four language pairs, features natural sentences with a wide range of sentence lengths and domains, challenging translation rewriters on various linguistic phenomena. Additionally, we present an English gender rewriting solution built on GPT-3.5 Turbo and use GATE X-E to evaluate it. We open source our contributions to encourage further research on gender debiasing.
arxiv情報
著者 | Spencer Rarrick,Ranjita Naik,Sundar Poudel,Vishal Chowdhary |
発行日 | 2023-12-13 04:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google