要約
タイトル:AfriSenti:アフリカ諸言語のTwitter感情分析のベンチマーク
要約:
– アフリカには6つの言語系統から2000以上の言語があり、すべての大陸の中で最も言語的多様性がある。
– このうち、1言語あたり100万人以上の話者がいる75の言語が含まれている。
– しかし、アフリカ諸言語に対するNLP研究はほとんど行われていない。
– この研究のためには、高品質のアノテーションされたデータセットが必要である。
– 本論文では、14のアフリカ諸言語(アムハラ語、アルジェリア語、ハウサ語、イボ語、キニャルワンダ語、モロッコ語、モザンビークポルトガル語、ナイジェリア・ピジン語、オロモ語、スワヒリ語、ティグリニャ語、トゥイ語、キツワホ語、ヨルバ語)で構成されるAfriSentiを紹介する。
– これらのデータは、ネイティブスピーカーによってアノテーションされ、合計110,000以上のツイートから成っている。
– これらのデータは、セムバル2023タスク12で使用され、アフリカ中心の最初のセムバル共有タスクとなる。
– データの収集方法、アノテーションプロセス、各データセットの作成時の関連する課題について説明する。
– 異なる感情分類ベースラインで実験を行い、その有用性について論じる。
– AfriSentiが未代表の言語に新しい研究を可能にすることを望む。
– データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023から入手可能であり、huggingfaceデータセットとしてもロードできる(https://huggingface.co/datasets/shmuhammad/AfriSenti)。
要約(オリジナル)
Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\’a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
arxiv情報
| 著者 | Shamsuddeen Hassan Muhammad,Idris Abdulmumin,Abinew Ali Ayele,Nedjma Ousidhoum,David Ifeoluwa Adelani,Seid Muhie Yimam,Ibrahim Sa’id Ahmad,Meriem Beloucif,Saif Mohammad,Sebastian Ruder,Oumaima Hourrane,Pavel Brazdil,Felermino Dário Mário António Ali,Davis Davis,Salomey Osei,Bello Shehu Bello,Falalu Ibrahim,Tajuddeen Gwadabe,Samuel Rutunda,Tadesse Belay,Wendimu Baye Messelle,Hailu Beshada Balcha,Sisay Adugna Chala,Hagos Tesfahun Gebremichael,Bernard Opoku,Steven Arthur |
| 発行日 | 2023-04-02 14:43:02+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI