weighted CapsuleNet networks for Persian multi-domain sentiment analysis

要約

センチメント分類は自然言語処理における基本的なタスクであり、ポジティブ、ネガティブ、ニュートラルの3つのクラスのいずれかを自由テキストに割り当てる。しかし、センチメント分類モデルはドメイン依存性が高く、あるドメインでは妥当な精度で分類できても、別のドメインでは単語の意味的多重性により精度が低下する。本稿では、累積重み付きカプセルネットワークアプローチを用いた新しいペルシア語/アラビア語のマルチドメイン感情分析手法を紹介する。重み付けカプセル・アンサンブルは、ドメインごとに別々のカプセル・ネットワークを学習し、ドメイン帰属度(DBD)と呼ばれる重み付け尺度を用いる。この基準はTFとIDFで構成され、各ドメインの各文書の依存度を個別に計算する。この値に、各カプセルが作成する可能性のある出力を乗算する。最終的に、これらの乗算の合計が最終出力のタイトルとなり、極性を決定するために使用される。そして、最も依存性の高いドメインが、各ドメインの最終出力とみなされる。提案手法をDigikalaデータセットを用いて評価したところ、既存のアプローチと比較して許容できる精度が得られた。その結果、所属ドメインの検出精度は0.89、極性の検出精度は0.99を達成した。また、偏ったクラスを扱う問題に対しては、コストを考慮した関数を用いた。この関数は、感情分類の精度を0.0162向上させることができた。Amazonアラビア語データに対するこのアプローチは、ドメイン分類において0.9695の精度を達成することができる。

要約(オリジナル)

Sentiment classification is a fundamental task in natural language processing, assigning one of the three classes, positive, negative, or neutral, to free texts. However, sentiment classification models are highly domain dependent; the classifier may perform classification with reasonable accuracy in one domain but not in another due to the Semantic multiplicity of words getting poor accuracy. This article presents a new Persian/Arabic multi-domain sentiment analysis method using the cumulative weighted capsule networks approach. Weighted capsule ensemble consists of training separate capsule networks for each domain and a weighting measure called domain belonging degree (DBD). This criterion consists of TF and IDF, which calculates the dependency of each document for each domain separately; this value is multiplied by the possible output that each capsule creates. In the end, the sum of these multiplications is the title of the final output, and is used to determine the polarity. And the most dependent domain is considered the final output for each domain. The proposed method was evaluated using the Digikala dataset and obtained acceptable accuracy compared to the existing approaches. It achieved an accuracy of 0.89 on detecting the domain of belonging and 0.99 on detecting the polarity. Also, for the problem of dealing with unbalanced classes, a cost-sensitive function was used. This function was able to achieve 0.0162 improvements in accuracy for sentiment classification. This approach on Amazon Arabic data can achieve 0.9695 accuracies in domain classification.

arxiv情報

著者 Mahboobeh Sadat Kobari,Nima Karimi,Benyamin Pourhosseini,Ramin Mousa
発行日 2023-07-01 20:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク