Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

要約

ナイジェリアは、500以上の言語を持つ多言語の国です。
ナイジャは、約が話すナイジェリアのピジンです。
ナイジェリアの120mスピーカーとそれは混合言語です(例:英語、ポルトガル語、ヨルバ、ハウサ、イボ)。
それは主に最近まで話し言葉でしたが、ナイジャ・ウィキペディアなどのナイジャのみで公開されているさまざまなプラットフォームが現在あります。
しかし、非ネイティブとは、西アフリカのピジン英語(WAPE)として知られる西アフリカで話されているより大きなピジン語と区別することは困難です。
BBCニュースプラットフォームは、西アフリカのいくつかの国に対応するために、Wapeで独占的に公開されています。
私たちの論文では、統計分析と機械翻訳実験を通じて、これら2つのクレオール品種が互いに表現していないこと(つまり、語順と語彙に言語の違いがある)と生成AIはWAPEに基づいてのみ動作します。
言い換えれば、ナイジャは生成AIで過小評価されており、LLMSにいくつかの例を教えることは困難です。

要約(オリジナル)

Nigeria is a multilingual country with 500+ languages. Naija is a Nigerian-Pidgin spoken by approx. 120M speakers in Nigeria and it is a mixed language (e.g., English, Portuguese, Yoruba, Hausa and Igbo). Although it has mainly been a spoken language until recently, there are now various platforms publishing exclusively in Naija such as Naija Wikipedia. However, it is hard to distinguish by non-native from a larger pidgin languages spoken across West Africa known as West African Pidgin English (WAPE) — which is more simplied and understandable by wider audience in Ghana, Nigeria, and Cameroon. BBC news platform publishes exclusively in WAPE to cater for several countries in West Africa. In our paper, we show through statistical analyses and Machine Translation experiments that these two creole varieties do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on WAPE. In other words, Naija is under-represented in Generative AI, and it is hard to teach LLMs with few examples.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2025-01-27 16:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク