Misgendering and Assuming Gender in Machine Translation when Working with Low-Resource Languages

要約

この章では、低リソース言語のコンテキストにおける機械翻訳 (MT) におけるジェンダー関連のエラーに焦点を当てます。
まず、低リソース言語とは何かを説明し、そのような言語階層を生み出す切り離せない社会的要因と計算的要因を検討します。
私たちは、母語であるベンガル語のケーススタディを通じて、約 3 億人が話している世界言語であるにもかかわらず、依然として低リソースに分類されている言語であるベンガル語のケーススタディを通じて、高リソースの英語との翻訳において性別がどのように想定され、推測されるのかを示します。
そのような情報はソーステキストで提供されます。
私たちは、言語の消去や表現上の危害につながるこのような間違いが植民地時代以降の社会に与える影響について議論し、最後に、MT での会話において言語の主体性を高めることによって言語を高揚させるための潜在的な解決策について議論します。

要約(オリジナル)

This chapter focuses on gender-related errors in machine translation (MT) in the context of low-resource languages. We begin by explaining what low-resource languages are, examining the inseparable social and computational factors that create such linguistic hierarchies. We demonstrate through a case study of our mother tongue Bengali, a global language spoken by almost 300 million people but still classified as low-resource, how gender is assumed and inferred in translations to and from the high(est)-resource English when no such information is provided in source texts. We discuss the postcolonial and societal impacts of such errors leading to linguistic erasure and representational harms, and conclude by discussing potential solutions towards uplifting languages by providing them more agency in MT conversations.

arxiv情報

著者 Sourojit Ghosh,Srishti Chatterjee
発行日 2024-03-12 17:41:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク