要約
レビューを通じて表現される消費者感情を分析すると、製品の品質に関する豊富な洞察が得られます。
感情分析の研究は多くの一般的な言語で広く研究されていますが、バングラ語に対する注目は比較的低く、これは主に関連データの欠如とクロスドメインの適応性が原因です。
この制限に対処するために、肯定的、否定的、中立的な 3 つの広いカテゴリに分類された 158,065 のサンプルで構成されるバングラ書評の大規模データセットである BanglaBook を紹介します。
データセットの詳細な統計分析を提供し、さまざまな機械学習モデルを採用して、SVM、LSTM、Bangla-BERT などのベースラインを確立します。
私たちの調査結果は、手動で作成された機能に依存するモデルと比較して、事前トレーニングされたモデルのパフォーマンスが大幅に優れていることを示しており、この領域で追加のトレーニング リソースが必要であることが強調されています。
さらに、センチメント ユニグラムを調べることで詳細なエラー分析を実施します。これにより、バングラ語のようなリソースが不足している言語でよくある分類エラーについての洞察が得られる可能性があります。
私たちのコードとデータは https://github.com/mohsinulkavir14/BanglaBook で公開されています。
要約(オリジナル)
The analysis of consumer sentiment, as expressed through reviews, can provide a wealth of insight regarding the quality of a product. While the study of sentiment analysis has been widely explored in many popular languages, relatively less attention has been given to the Bangla language, mostly due to a lack of relevant data and cross-domain adaptability. To address this limitation, we present BanglaBook, a large-scale dataset of Bangla book reviews consisting of 158,065 samples classified into three broad categories: positive, negative, and neutral. We provide a detailed statistical analysis of the dataset and employ a range of machine learning models to establish baselines including SVM, LSTM, and Bangla-BERT. Our findings demonstrate a substantial performance advantage of pre-trained models over models that rely on manually crafted features, emphasizing the necessity for additional training resources in this domain. Additionally, we conduct an in-depth error analysis by examining sentiment unigrams, which may provide insight into common classification errors in under-resourced languages like Bangla. Our codes and data are publicly available at https://github.com/mohsinulkabir14/BanglaBook.
arxiv情報
著者 | Mohsinul Kabir,Obayed Bin Mahfuz,Syed Rifat Raiyan,Hasan Mahmud,Md Kamrul Hasan |
発行日 | 2023-06-08 08:57:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google