Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

要約

ナイジェリアは 500 以上の言語がある多言語国家です。
ナイジャはナイジェリア系ピジン語で、約 2 人が話します。
ナイジェリアには 1 億 2,000 万人の話者がおり、混合言語 (英語、ポルトガル語、ヨルバ語、ハウサ語、イボ語など) です。
最近までは主に話し言葉でしたが、現在では Naija Wikipedia など、Naija のみを公開するさまざまなプラットフォームが存在します。
しかし、非ネイティブにとっては、西アフリカ ピジン英語 (WAPE) として知られる西アフリカ全域で話されているより大きなピジン言語と区別するのは困難です。WAPE はより単純化されており、ガーナ、ナイジェリア、カメルーンの幅広い聴衆に理解されています。
BBC ニュース プラットフォームは、西アフリカのいくつかの国に対応するために WAPE のみで公開しています。
私たちの論文では、統計分析と機械翻訳の実験を通じて、これら 2 つのクレオール品種は互いに表現しておらず (つまり、語順と語彙に言語的な違いがある)、生成 AI は WAPE に基づいてのみ動作することを示しています。
言い換えれば、Naija は生成 AI において過小評価されており、サンプルが少ない LLM を教えるのは困難です。

要約(オリジナル)

Nigeria is a multilingual country with 500+ languages. Naija is a Nigerian-Pidgin spoken by approx. 120M speakers in Nigeria and it is a mixed language (e.g., English, Portuguese, Yoruba, Hausa and Igbo). Although it has mainly been a spoken language until recently, there are now various platforms publishing exclusively in Naija such as Naija Wikipedia. However, it is hard to distinguish by non-native from a larger pidgin languages spoken across West Africa known as West African Pidgin English (WAPE) — which is more simplied and understandable by wider audience in Ghana, Nigeria, and Cameroon. BBC news platform publishes exclusively in WAPE to cater for several countries in West Africa. In our paper, we show through statistical analyses and Machine Translation experiments that these two creole varieties do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on WAPE. In other words, Naija is under-represented in Generative AI, and it is hard to teach LLMs with few examples.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2024-10-23 17:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク