A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There Outlier Words?

要約

テキストの感情分析に対する語彙ベースのアプローチは、感情の極性を示す事前定義された重みを持つ各単語または語彙エントリに基づいています。
これらは通常手動で割り当てられますが、センチメントを計算するための機械学習ベースのアプローチと比較した場合の精度は不明です。
語彙エントリのセンチメント値により、語彙ベースのアプローチで機械学習アプローチとは大きく異なる結果が得られる可能性があります。
このペーパーでは、語彙集ベースの手法である Hedonometer と、Azure Cognitive Services API ファミリの一部である最新の機械学習ベースのアプローチである Azure を使用して、4 つのドメインから抽出された 150,000 を超える英語テキストのセンチメントを計算します。
使用します。
各ドメインのドキュメントに対するアプローチ間の感情スコアの差を回帰を使用してモデル化し、各単語の重要性とスコア差への寄与の指標として独立変数 (ヘドノメーター語彙エントリ) を分析します。
私たちの調査結果では、単語の重要性はドメインに依存しており、体系的に感情スコアの違いを引き起こすような目立った語彙エントリは存在しないことがわかりました。

要約(オリジナル)

Lexicon-based approaches to sentiment analysis of text are based on each word or lexical entry having a pre-defined weight indicating its sentiment polarity. These are usually manually assigned but the accuracy of these when compared against machine leaning based approaches to computing sentiment, are not known. It may be that there are lexical entries whose sentiment values cause a lexicon-based approach to give results which are very different to a machine learning approach. In this paper we compute sentiment for more than 150,000 English language texts drawn from 4 domains using the Hedonometer, a lexicon-based technique and Azure, a contemporary machine-learning based approach which is part of the Azure Cognitive Services family of APIs which is easy to use. We model differences in sentiment scores between approaches for documents in each domain using a regression and analyse the independent variables (Hedonometer lexical entries) as indicators of each word’s importance and contribution to the score differences. Our findings are that the importance of a word depends on the domain and there are no standout lexical entries which systematically cause differences in sentiment scores.

arxiv情報

著者 Siddhant Jaydeep Mahajani,Shashank Srivastava,Alan F. Smeaton
発行日 2023-11-10 18:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク