Linguistic features for sentence difficulty prediction in ABSA

要約

自然言語理解の課題の1つは、文の主観性を扱うことである。主観性は、複雑さとニュアンスの層を追加する意見や感情を表現する可能性がある。センチメント分析は、テキストからこれらの主観的な要素を抽出して分析することを目的とする分野であり、文書、段落、文、またはアスペクトなど、さまざまな粒度レベルで適用することができます。アスペクトベースのセンチメント分析は、多くの利用可能なデータセットやモデルを持つ、よく研究されたトピックです。しかし、何がアスペクトベースのセンチメント分析にとって難しい文章になるのか、明確な定義はありません。本論文では、「ノートパソコン」、「レストラン」、「MTSC」(Multi-Target-dependent Sentiment Classification)の3つのデータセットと、これら3つのデータセットをマージしたデータセットを用いて実験を行い、この疑問を探る。ドメインの多様性と構文の多様性が難易度に与える影響を調べる。最も難しい文を特定し、その特徴を分析するために、分類器の組み合わせを使用する。文の難易度を定義するために2つの方法を採用する。1つ目は2値であり、分類器がセンチメントの極性を正しく予測できなかった場合、文を困難とラベル付けする。もう1つは、上位5つの最も良い性能を持つ分類器のうち、いくつがセンチメントの極性を正しく予測できるかに基づく6レベルのスケールです。また、文レベルで難易度を推定する9つの言語的特徴を定義します。

要約(オリジナル)

One of the challenges of natural language understanding is to deal with the subjectivity of sentences, which may express opinions and emotions that add layers of complexity and nuance. Sentiment analysis is a field that aims to extract and analyze these subjective elements from text, and it can be applied at different levels of granularity, such as document, paragraph, sentence, or aspect. Aspect-based sentiment analysis is a well-studied topic with many available data sets and models. However, there is no clear definition of what makes a sentence difficult for aspect-based sentiment analysis. In this paper, we explore this question by conducting an experiment with three data sets: ‘Laptops’, ‘Restaurants’, and ‘MTSC’ (Multi-Target-dependent Sentiment Classification), and a merged version of these three datasets. We study the impact of domain diversity and syntactic diversity on difficulty. We use a combination of classifiers to identify the most difficult sentences and analyze their characteristics. We employ two ways of defining sentence difficulty. The first one is binary and labels a sentence as difficult if the classifiers fail to correctly predict the sentiment polarity. The second one is a six-level scale based on how many of the top five best-performing classifiers can correctly predict the sentiment polarity. We also define 9 linguistic features that, combined, aim at estimating the difficulty at sentence level.

arxiv情報

著者 Adrian-Gabriel Chifu,Sébastien Fournier
発行日 2024-02-05 16:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク