Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

要約

ナイジェリアは、500以上の言語を持つ多言語の国です。
ナイジャは、約1億2,000万人のスピーカーが話しているナイジェリアのピジンであり、混合言語(英語、ポルトガル語、ヨルバ、ハウサ、イボなど)です。
主に最近まで話し言葉でしたが、いくつかのオンラインプラットフォーム(Wikipediaなど)があり、Naijaにも公開されています。
西アフリカのピジン英語(WAPE)もナイジェリアで話されており、BBCはナイジェリアだけでなく、他の西アフリカ諸国(カメルーンやガーナなど)でもインターネット上のニュースをより多くの聴衆に放送するために使用されています。
統計分析と機械翻訳実験を通じて、我々の論文は、これらの2つのピジン品種が互いに表現していないことを示しています(つまり、語順と語彙に言語の違いがあります)。
言い換えれば、ナイジャは生成AIで過小評価されており、LLMSにいくつかの例を教えることは困難です。
統計分析に加えて、ピジンの両方に関する歴史的情報と、ナイジャのボランティアウィキペディアの寄稿者とのインタビューからの洞察も提供します。

要約(オリジナル)

Nigeria is a multilingual country with 500+ languages. Naija is a Nigerian Pidgin spoken by approximately 120M speakers and it is a mixed language (e.g., English, Portuguese, Yoruba, Hausa and Igbo). Although it has mainly been a spoken language until recently, there are some online platforms (e.g., Wikipedia), publishing in written Naija as well. West African Pidgin English (WAPE) is also spoken in Nigeria and it is used by BBC to broadcast news on the internet to a wider audience not only in Nigeria but also in other West African countries (e.g., Cameroon and Ghana). Through statistical analyses and Machine Translation experiments, our paper shows that these two pidgin varieties do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on WAPE. In other words, Naija is underrepresented in Generative AI, and it is hard to teach LLMs with few examples. In addition to the statistical analyses, we also provide historical information on both pidgins as well as insights from the interviews conducted with volunteer Wikipedia contributors in Naija.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2025-02-10 15:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク