Constructing Colloquial Dataset for Persian Sentiment Analysis of Social Microblogs

要約

はじめに: ミニブログ Web サイトには、感情分析や意見マイニングのための豊富なデータ ソースが大量にあります。
この点に関して、ソーシャル ネットワークのユーザーは長いステートメントを書くことを好まないため、ミニブログの投稿には通常、構文的に一貫した用語や表現が欠けているため、センチメント分類は非効率であることが頻繁に証明されています。
また、低リソース言語にはいくつかの制限があります。
ペルシア語には例外的な特徴があり、英語方言内のテキスト機能とは異なる、感情分析タスク用の独自の注釈付きデータとモデルが必要です。
方法: この論文はまず、ITRC-Opinion と呼ばれるユーザー意見データセットをコラボレーション環境とインソース方式で構築します。
私たちのデータセットには、Twitter や Instagram などのソーシャル ミニブログからの非公式および口語的なペルシア語テキストが 60,000 件含まれています。
第二に、この研究は、ソーシャル ミニブログ投稿内の口語テキストの感情分析をより効果的に行うための新しい深層畳み込みニューラル ネットワーク (CNN) モデルを提案します。
構築されたデータセットは、提示されたモデルを評価するために使用されます。
さらに、Fasttext、Glove、Word2vec などのさまざまな単語埋め込みを備えた LSTM、CNN-RNN、BiLSTM、BiGRU などのいくつかのモデルがデータセットを調査し、結果を評価しました。
結果: 結果は、データセットと提案されたモデル (精度 72%) の利点を示しており、センチメント分類パフォーマンスの大幅な向上を示しています。

要約(オリジナル)

Introduction: Microblogging websites have massed rich data sources for sentiment analysis and opinion mining. In this regard, sentiment classification has frequently proven inefficient because microblog posts typically lack syntactically consistent terms and representatives since users on these social networks do not like to write lengthy statements. Also, there are some limitations to low-resource languages. The Persian language has exceptional characteristics and demands unique annotated data and models for the sentiment analysis task, which are distinctive from text features within the English dialect. Method: This paper first constructs a user opinion dataset called ITRC-Opinion by collaborative environment and insource way. Our dataset contains 60,000 informal and colloquial Persian texts from social microblogs such as Twitter and Instagram. Second, this study proposes a new deep convolutional neural network (CNN) model for more effective sentiment analysis of colloquial text in social microblog posts. The constructed datasets are used to evaluate the presented model. Furthermore, some models, such as LSTM, CNN-RNN, BiLSTM, and BiGRU with different word embeddings, including Fasttext, Glove, and Word2vec, investigated our dataset and evaluated the results. Results: The results demonstrate the benefit of our dataset and the proposed model (72% accuracy), displaying meaningful improvement in sentiment classification performance.

arxiv情報

著者 Mojtaba Mazoochi,Leyla Rabiei,Farzaneh Rahmani,Zeinab Rajabi
発行日 2023-06-22 05:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク