KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes


この論文では、カザフスタンの感情分析のために開発されたデータセット、KazSAnDRA について説明します。このデータセットは、この種のデータセットとしては初にして最大のものです。
KazSAnDRA は、さまざまな情報源から取得した 180,064 件のレビューの広範なコレクションで構成されており、顧客の態度を定量的に表す 1 から 5 までの数値評価が含まれています。
この研究では、極性分類とスコア分類の両方について訓練された 4 つの機械学習モデルの開発と評価を通じて、カザフスタンの感情分類の自動化も追求されました。
最も成功したモデルは、テスト セットの極性分類で 0.81、スコア分類で 0.39 の F1 スコアを達成しました。
データセットと微調整されたモデルはオープン アクセスであり、クリエイティブ コモンズ表示 4.0 国際ライセンス (CC BY 4.0) に基づいて、GitHub リポジトリを通じてダウンロードできます。


This paper presents KazSAnDRA, a dataset developed for Kazakh sentiment analysis that is the first and largest publicly available dataset of its kind. KazSAnDRA comprises an extensive collection of 180,064 reviews obtained from various sources and includes numerical ratings ranging from 1 to 5, providing a quantitative representation of customer attitudes. The study also pursued the automation of Kazakh sentiment classification through the development and evaluation of four machine learning models trained for both polarity classification and score classification. Experimental analysis included evaluation of the results considering both balanced and imbalanced scenarios. The most successful model attained an F1-score of 0.81 for polarity classification and 0.39 for score classification on the test sets. The dataset and fine-tuned models are open access and available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.


著者 Rustem Yeshpanov,Huseyin Atakan Varol
発行日 2024-03-28 11:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク