UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages




– SemEval-2023のAfriSenti共有タスク12に対する貢献として、多言語大規模言語モデルが、事前学習中に見たことのない言語における感情分析のリソースとなるかどうかについて洞察を提供する。
– 共有タスクは、異なる言語系統からの多様なアフリカ言語のデータセットを提供する。これらの言語は、事前学習で使用された言語と様々な程度で関連しており、言語データにはさまざまな程度のコードスイッチングが含まれる。
– 最終的なファインチューニングには、単一言語と多言語のデータセットの両方を実験し、提供された数千のサンプルが含まれるデータセットでは、単一言語のファインチューニングが最良の結果を出すことがわかる。


Our contribution to the 2023 AfriSenti-SemEval shared task 12: Sentiment Analysis for African Languages, provides insight into how a multilingual large language model can be a resource for sentiment analysis in languages not seen during pretraining. The shared task provides datasets of a variety of African languages from different language families. The languages are to various degrees related to languages used during pretraining, and the language data contain various degrees of code-switching. We experiment with both monolingual and multilingual datasets for the final fine-tuning, and find that with the provided datasets that contain samples in the thousands, monolingual fine-tuning yields the best results.


著者 Egil Rønningstad
発行日 2023-04-27 13:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク