Which Nigerian-Pidgin does Generative AI speak?: Issues about Representativeness and Bias for Multilingual and Low Resource Languages

要約

ナイジャはナイジェリア系ピジン語で、約 100 人が話します。
ナイジェリアには 1 億 2,000 万人の話者がおり、混合言語 (英語、ポルトガル語、先住民族の言語など) です。
最近まで主に話し言葉でしたが、現在ナイジャには 2 つの書き言葉ジャンル (BBC と Wikipedia) があります。
統計分析と機械翻訳の実験を通じて、これら 2 つのジャンルは相互に表現されず (つまり、語順や語彙に言語的な違いがある)、生成 AI は BBC ジャンルで書かれた Naija にのみ基づいて動作することが証明されました。
つまり、Wikipedia のジャンルで書かれた Naija は、Generative AI では表現されません。

要約(オリジナル)

Naija is the Nigerian-Pidgin spoken by approx. 120M speakers in Nigeria and it is a mixed language (e.g., English, Portuguese and Indigenous languages). Although it has mainly been a spoken language until recently, there are currently two written genres (BBC and Wikipedia) in Naija. Through statistical analyses and Machine Translation experiments, we prove that these two genres do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on Naija written in the BBC genre. In other words, Naija written in Wikipedia genre is not represented in Generative AI.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2024-04-30 10:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク