要約
タイトル:低リソース言語における感情分類のための多言語ファインチューニングによるUIOのアプローチ
要約:
– SemEval-2023のAfriSenti共有タスク12に対する貢献として、多言語大規模言語モデルが、事前学習中に見たことのない言語における感情分析のリソースとなるかどうかについて洞察を提供する。
– 共有タスクは、異なる言語系統からの多様なアフリカ言語のデータセットを提供する。これらの言語は、事前学習で使用された言語と様々な程度で関連しており、言語データにはさまざまな程度のコードスイッチングが含まれる。
– 最終的なファインチューニングには、単一言語と多言語のデータセットの両方を実験し、提供された数千のサンプルが含まれるデータセットでは、単一言語のファインチューニングが最良の結果を出すことがわかる。
要約(オリジナル)
Our contribution to the 2023 AfriSenti-SemEval shared task 12: Sentiment Analysis for African Languages, provides insight into how a multilingual large language model can be a resource for sentiment analysis in languages not seen during pretraining. The shared task provides datasets of a variety of African languages from different language families. The languages are to various degrees related to languages used during pretraining, and the language data contain various degrees of code-switching. We experiment with both monolingual and multilingual datasets for the final fine-tuning, and find that with the provided datasets that contain samples in the thousands, monolingual fine-tuning yields the best results.
arxiv情報
著者 | Egil Rønningstad |
発行日 | 2023-04-27 13:51:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI