要約
アフリカには 2,000 以上の先住民言語がありますが、データセットが不足しているため、NLP 研究ではそれらの言語は過小評価されています。
近年、アフリカ言語のラベル付きコーパスの開発が進んでいます。
ただし、これらは単一のドメインで利用できることが多く、他のドメインに一般化できない場合があります。
この論文では、クロスドメイン適応のためのセンチメント分類のタスクに焦点を当てます。
私たちは、ナイジェリアで広く話されている 5 つの言語 (英語、ハウサ語、イボ語、ナイジェリア ピジン語、ヨルバ語) のノリウッド映画レビューに基づいて、新しいデータセット NollySenti を作成します。古典的な機械学習手法と事前トレーニングを使用した広範な実証的評価を提供します。
言語モデル転移学習を利用して、Twitter ドメインからのクロスドメイン適応と英語からのクロス言語適応のパフォーマンスを比較しました。私たちの評価では、同じターゲット ドメイン内の英語からの転移が精度の 5% 以上の向上につながることが示されました。
同じ言語の Twitter からの転送と比較して、ドメインの違いをさらに軽減するために、英語から他のナイジェリア語への機械翻訳 (MT) を活用し、言語間の評価と比較してさらに 7% の改善につながりました。
– リソース言語は品質が低いことが多いですが、人による評価を通じて、翻訳された文のほとんどが元の英語のレビューの感情を保持していることがわかりました。
要約(オリジナル)
Africa has over 2000 indigenous languages but they are under-represented in NLP research due to lack of datasets. In recent years, there have been progress in developing labeled corpora for African languages. However, they are often available in a single domain and may not generalize to other domains. In this paper, we focus on the task of sentiment classification for cross domain adaptation. We create a new dataset, NollySenti – based on the Nollywood movie reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo, Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using classical machine learning methods and pre-trained language models. Leveraging transfer learning, we compare the performance of cross-domain adaptation from Twitter domain, and cross-lingual adaptation from English language. Our evaluation shows that transfer from English in the same target domain leads to more than 5% improvement in accuracy compared to transfer from Twitter in the same language. To further mitigate the domain difference, we leverage machine translation (MT) from English to other Nigerian languages, which leads to a further improvement of 7% over cross-lingual evaluation. While MT to low-resource languages are often of low quality, through human evaluation, we show that most of the translated sentences preserve the sentiment of the original English reviews.
arxiv情報
著者 | Iyanuoluwa Shode,David Ifeoluwa Adelani,Jing Peng,Anna Feldman |
発行日 | 2023-08-22 07:25:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google