要約
人々は世界中で7,000以上の言語でコミュニケーションしており、インドだけでも約780の言語が話されています。このような言語的多様性にもかかわらず、センチメント分析の研究は英語のテキストデータに主に焦点を当てており、その結果、英語のセンチメントリソースが不十分に利用可能になっている。本稿では、多言語データセットと機械翻訳を経たテキストを対象に、センチメント分析タスクにおける変換モデルのパフォーマンスを検証する。異なる言語コンテキストにおけるこれらのモデルの有効性を比較することで、その性能のばらつきと、多様な言語にわたるセンチメント分析の潜在的な意味について洞察を得る。また、最後に欠点と今後の研究の可能性について議論する。
要約(オリジナル)
People communicate in more than 7,000 languages around the world, with around 780 languages spoken in India alone. Despite this linguistic diversity, research on Sentiment Analysis has predominantly focused on English text data, resulting in a disproportionate availability of sentiment resources for English. This paper examines the performance of transformer models in Sentiment Analysis tasks across multilingual datasets and text that has undergone machine translation. By comparing the effectiveness of these models in different linguistic contexts, we gain insights into their performance variations and potential implications for sentiment analysis across diverse languages. We also discuss the shortcomings and potential for future work towards the end.
arxiv情報
著者 | Aekansh Kathunia,Mohammad Kaif,Nalin Arora,N Narotam |
発行日 | 2024-09-02 15:41:34+00:00 |
arxivサイト | arxiv_id(pdf) |