要約
感情分析ツールが有効な分類子である場合、さまざまな種類のコーパスおよびさまざまな言語に対する感情分類について同等の結果が提供されることが期待されます。
以前の研究の結果と一致して、感情分析ツールが同じデータセットに対して一致しないことを示します。
これまでの研究を超えて、センチメント アノテーションに使用されるセンチメント ツールはその結果から予測することもできることを示し、センチメント分析のアルゴリズムによるバイアスを明らかにします。
Twitter、Wikipedia、および英語、ドイツ語、フランス語のさまざまなニュース コーパスに基づいて、当社の分類器は平均 F1 スコア 0.89 (英語コーパスの場合) でセンチメント ツールを分離します。
したがって、私たちは感情の注釈を額面通りに受け取ることに対して警告し、より多くの体系的な NLP 評価研究の必要性を主張します。
要約(オリジナル)
If sentiment analysis tools were valid classifiers, one would expect them to provide comparable results for sentiment classification on different kinds of corpora and for different languages. In line with results of previous studies we show that sentiment analysis tools disagree on the same dataset. Going beyond previous studies we show that the sentiment tool used for sentiment annotation can even be predicted from its outcome, revealing an algorithmic bias of sentiment analysis. Based on Twitter, Wikipedia and different news corpora from the English, German and French languages, our classifiers separate sentiment tools with an averaged F1-score of 0.89 (for the English corpora). We therefore warn against taking sentiment annotations as face value and argue for the need of more and systematic NLP evaluation studies.
arxiv情報
著者 | Daniel Baumartz,Mevlüt Bagci,Alexander Henlein,Maxim Konca,Andy Lücking,Alexander Mehler |
発行日 | 2024-10-18 17:27:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google