AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages

要約

タイトル:AfriSenti:アフリカ言語におけるTwitter感情分析のベンチマーク

要約:

– アフリカには6つの言語ファミリーから2000以上の言語があり、全大陸中最も言語多様性が高い地域の1つである。その中でも、少なくとも100万人の話者を持つ75の言語が存在する。
– しかし、アフリカ言語に対して十分なNLP研究が行われていない。そのために重要なのは、高品質で注釈付けされたデータセットの利用可能性である。
– この論文では、14のアフリカ言語(アムハラ語、アルジェリア・アラビア語、ハウサ語、イボ語、キニャルワンダ語、モロッコ・アラビア語、モザンビーク・ポルトガル語、ナイジェリア―・ピジン語、オロモ語、スワヒリ語、ティグリニャ語、トゥイ語、シツォンガ語、ヨルバ語)からなる14の感情データセットを紹介する。
– これは、ネイティブスピーカーによって注釈付けされた110,000以上のツイートが含まれるもので、SemEval 2023 Task 12で使用される予定である。これは最初のアフロセントリックなSemEval shared taskである。
– データの収集方法、注釈付けプロセス、および各データセットのキュレーションにおける関連する課題について説明し、異なる感情分類のベースラインを使用して実験を行い、その有用性についても議論する。
– AfriSentiは、未だ十分に研究されていない言語に関する新しい研究を可能にすることを期待している。データセットは、https://github.com/afrisenti-semeval/afrisent-semeval-2023で入手可能であり、また、huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti)でもロードすることができる。

要約(オリジナル)

Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\’a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Idris Abdulmumin,Abinew Ali Ayele,Nedjma Ousidhoum,David Ifeoluwa Adelani,Seid Muhie Yimam,Ibrahim Sa’id Ahmad,Meriem Beloucif,Saif M. Mohammad,Sebastian Ruder,Oumaima Hourrane,Pavel Brazdil,Felermino Dário Mário António Ali,Davis David,Salomey Osei,Bello Shehu Bello,Falalu Ibrahim,Tajuddeen Gwadabe,Samuel Rutunda,Tadesse Belay,Wendimu Baye Messelle,Hailu Beshada Balcha,Sisay Adugna Chala,Hagos Tesfahun Gebremichael,Bernard Opoku,Steven Arthur
発行日 2023-04-28 19:46:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク