要約
アフリカには、6 つ以上の言語ファミリーからなる 2000 以上の言語があり、すべての大陸の中で言語の多様性が最も高くなっています。
これには、それぞれ少なくとも 100 万人の話者を持つ 75 の言語が含まれます。
しかし、アフリカの言語について行われた NLP の研究はほとんどありません。
このような研究を可能にする上で重要なのは、高品質の注釈付きデータセットを利用できることです。
このホワイト ペーパーでは、14 のアフリカ言語 (アムハラ語、アルジェリア アラビア語、ハウサ語、イボ語、キンヤルワンダ語、モロッコ アラビア語、モザンビーク ポルトガル語、ナイジェリア ピジン語、オロモ語、スワヒリ語、ティグリニャ語、トゥイ語) の 110,000 以上のツイートの 14 の感情データセットで構成される AfriSenti を紹介します。
、Xitsonga、および Yor\`ub\’a) は、ネイティブ スピーカーによって注釈が付けられた 4 つの言語ファミリから取得されます。
データは、最初のアフロ中心の SemEval 共有タスクである SemEval 2023 タスク 12 で使用されます。
各データセットをキュレートする際のデータ収集方法、注釈プロセス、および関連する課題について説明します。
さまざまな感情分類ベースラインを使用して実験を行い、それらの有用性について説明します。
私たちは、AfriSenti が少数言語での新しい作業を可能にすることを願っています。
データセットは https://github.com/afrisenti-semeval/afrisent-semeval-2023 で入手でき、huggingface データセット (https://huggingface.co/datasets/shmuhammad/AfriSenti) として読み込むこともできます。
要約(オリジナル)
Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\’a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
arxiv情報
著者 | Shamsuddeen Hassan Muhammad,Idris Abdulmumin,Abinew Ali Ayele,Nedjma Ousidhoum,David Ifeoluwa Adelani,Seid Muhie Yimam,Ibrahim Sa’id Ahmad,Meriem Beloucif,Saif Mohammad,Sebastian Ruder,Oumaima Hourrane,Pavel Brazdil,Felermino Dário Mário António Ali,Davis Davis,Salomey Osei,Bello Shehu Bello,Falalu Ibrahim,Tajuddeen Gwadabe,Samuel Rutunda,Tadesse Belay,Wendimu Baye Messelle,Hailu Beshada Balcha,Sisay Adugna Chala,Hagos Tesfahun Gebremichael,Bernard Opoku,Steven Arthur |
発行日 | 2023-02-17 15:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google