What about em? How Commercial Machine Translation Fails to Handle (Neo-)Pronouns


三人称代名詞の使用法が新代名詞などの新しい形式を含むように変化しているため、アイデンティティを含む NLP に関するさらなる研究が必要です。
除外は、最も人気のある NLP アプリケーションの 1 つである機械翻訳 (MT) において特に有害です。
代名詞の間違った翻訳は、非バイナリー個人など、疎外されたグループを差別する可能性があります (Dev et al., 2021)。
この「リアリティチェック」では、3 つの商用 MT システムが三人称代名詞をどのように翻訳するかを研究します。
具体的には、性別代名詞と性別中立代名詞の英語から他の 5 つの言語 (デンマーク語、ペルシア語、フランス語、ドイツ語、イタリア語) への翻訳、およびその逆のデンマーク語から英語への翻訳を比較します。
影響を受けたさまざまな言語の母語話者の意見を調査することで、今後の MT 研究でこの問題に対処するための推奨事項を提供します。


As 3rd-person pronoun usage shifts to include novel forms, e.g., neopronouns, we need more research on identity-inclusive NLP. Exclusion is particularly harmful in one of the most popular NLP applications, machine translation (MT). Wrong pronoun translations can discriminate against marginalized groups, e.g., non-binary individuals (Dev et al., 2021). In this “reality check”, we study how three commercial MT systems translate 3rd-person pronouns. Concretely, we compare the translations of gendered vs. gender-neutral pronouns from English to five other languages (Danish, Farsi, French, German, Italian), and vice versa, from Danish to English. Our error analysis shows that the presence of a gender-neutral pronoun often leads to grammatical and semantic translation errors. Similarly, gender neutrality is often not preserved. By surveying the opinions of affected native speakers from diverse languages, we provide recommendations to address the issue in future MT research.


著者 Anne Lauscher,Debora Nozza,Archie Crowley,Ehm Miltersen,Dirk Hovy
発行日 2023-05-25 13:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク