HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis

要約

タイトル:HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource TweetData for Sentiment Analysis

要約:

– SemEval-2023 Task 12は、Twitterデータセットを用いた低資源アフリカ言語の感情分析に関する共有タスクである。
– タスクには3つのサブタスクがあり、サブタスクAは12のトラックからなる単一言語感情分類、サブタスクBはサブタスクAのトラックを使用した多言語感情分類、サブタスクCはゼロショット感情分類である。
– サブタスクA、サブタスクB、サブタスクCの結果と調査結果を発表している。
– Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment(アラビア語-camelbert)、Multilingual-BERT(mBERT)およびBERTモデルを使用して、14のアフリカ言語の感情分析に低リソースツイートデータを活用することを目的としている。
– これらのサブタスク用のデータセットは、これらの言語からのゴールドスタンダードのマルチクラスラベル付きTwitterデータセットで構成されている。
– 結果は、Afro-xlmr-largeモデルが他のモデルよりもほとんどの言語データセットで優れたパフォーマンスを発揮したことを示している。同様に、ナイジェリア語であるハウサ語、イボ語、ヨルバ語は、他の言語に比べて優れたパフォーマンスを発揮し、これは言語に存在するデータ量の多さに帰因すると考えられる。

要約(オリジナル)

We present the findings of SemEval-2023 Task 12, a shared task on sentiment analysis for low-resource African languages using Twitter dataset. The task featured three subtasks; subtask A is monolingual sentiment classification with 12 tracks which are all monolingual languages, subtask B is multilingual sentiment classification using the tracks in subtask A and subtask C is a zero-shot sentiment classification. We present the results and findings of subtask A, subtask B and subtask C. We also release the code on github. Our goal is to leverage low-resource tweet data using pre-trained Afro-xlmr-large, AfriBERTa-Large, Bert-base-arabic-camelbert-da-sentiment (Arabic-camelbert), Multilingual-BERT (mBERT) and BERT models for sentiment analysis of 14 African languages. The datasets for these subtasks consists of a gold standard multi-class labeled Twitter datasets from these languages. Our results demonstrate that Afro-xlmr-large model performed better compared to the other models in most of the languages datasets. Similarly, Nigerian languages: Hausa, Igbo, and Yoruba achieved better performance compared to other languages and this can be attributed to the higher volume of data present in the languages.

arxiv情報

著者 Saheed Abdullahi Salahudeen,Falalu Ibrahim Lawan,Ahmad Mustapha Wali,Amina Abubakar Imam,Aliyu Rabiu Shuaibu,Aliyu Yusuf,Nur Bala Rabiu,Musa Bello,Shamsuddeen Umaru Adamu,Saminu Mohammad Aliyu,Murja Sani Gadanya,Sanah Abdullahi Muaz,Mahmoud Said Ahmad,Abdulkadir Abdullahi,Abdulmalik Yusuf Jamoh
発行日 2023-04-26 15:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク