An Experimental Study on Sentiment Classification of Moroccan dialect texts in the web

要約

ソーシャル メディア Web サイトの使用が急速に拡大するにつれて、ユーザーのフィードバックを取得することは、オンラインでの傾向や行動を評価するための重要なタスクになりました。
このように情報が豊富に入手可能であり、アラビア語ユーザーの数が増加しているにもかかわらず、アラビア語の方言を扱うことができた研究はほとんどありません。
この論文の目的は、感情分析のためによく知られた一般的に使用されている方法を使用して、実際のモロッコ語のテキストで表現された意見と感情をYouTubeのコメントで正確に研究することです.
このホワイト ペーパーでは、機械学習 (ML) モデルを使用し、収集して手動で注釈を付けた YouTube モロッコ方言データセットに基づいて、モロッコ方言コメント分類の作業を紹介します。
多くのテキスト前処理とデータ表現技術を採用することにより、最も一般的に使用される教師あり分類器を利用して分類結果を比較することを目指しています: k 最近傍 (KNN)、サポート ベクター マシン (SVM)、ナイーブ ベイズ (NB)、およびディープ ラーニング (DL)
) 畳み込みニューラル ネットワーク (CNN) や長短期記憶 (LTSM) などの分類器。
前処理の重要性を示すために、生データと前処理済みデータの両方を使用して実験が行われました。
実際、実験結果は、DL モデルが古典的なアプローチよりもモロッコ方言に対して優れたパフォーマンスを発揮し、90% の精度を達成したことを証明しています。

要約(オリジナル)

With the rapid growth of the use of social media websites, obtaining the users’ feedback automatically became a crucial task to evaluate their tendencies and behaviors online. Despite this great availability of information, and the increasing number of Arabic users only few research has managed to treat Arabic dialects. The purpose of this paper is to study the opinion and emotion expressed in real Moroccan texts precisely in the YouTube comments using some well-known and commonly used methods for sentiment analysis. In this paper, we present our work of Moroccan dialect comments classification using Machine Learning (ML) models and based on our collected and manually annotated YouTube Moroccan dialect dataset. By employing many text preprocessing and data representation techniques we aim to compare our classification results utilizing the most commonly used supervised classifiers: k-nearest neighbors (KNN), Support Vector Machine (SVM), Naive Bayes (NB), and deep learning (DL) classifiers such as Convolutional Neural Network (CNN) and Long Short-Term Memory (LTSM). Experiments were performed using both raw and preprocessed data to show the importance of the preprocessing. In fact, the experimental results prove that DL models have a better performance for Moroccan Dialect than classical approaches and we achieved an accuracy of 90%.

arxiv情報

著者 Mouad Jbel,Imad Hafidi,Abdulmutallib Metrane
発行日 2023-03-28 14:02:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク