Unveiling factors influencing judgment variation in Sentiment Analysis with Natural Language Processing and Statistics

要約

トリップアドバイザーのレビューと比較可能なデータ ソースは、自然言語処理 (NLP) の多くのタスクで重要な役割を果たし、ホテルやレストランのレビューなどの主観的な判断を肯定的または否定的な極性に識別して分類するためのデータ基盤を提供します。
この研究では、スペイン語のトリップアドバイザーのレビューに焦点を当て、クラウドソーシングによる極性判断の変動に影響を与える 3 つの重要な要因を調査します。
品詞 (POS) の役割、「おいしい」などの感情語の影響、「ok」などの中立語が判断の変動に与える影響という 3 つの仮説がテストされます。
この研究の方法論では 1 単語のタイトルが採用されており、単語の極性の変化を研究する際の有効性が実証されています。
平均等価性に関する統計的検定は、関心のある単語グループに対して実行されます。
この研究の結果、1単語のタイトルに含まれる形容詞は、他の語種や品詞に比べて判断の変動が低い傾向にあることが明らかになりました。
感情語は、より低い判断変動にも寄与しており、極性判断に関する研究における感情語の重要性が強調されており、予想通り、中立的な単語はより高い判断変動と関連しています。
ただし、これらの効果は長いタイトルで常に再現できるわけではありません。これは、長いタイトルでは否定などの他の単語が単語の極性に影響を与えるため、長いタイトルは単一の単語の曖昧性をテストするための最適なデータ ソースではないことを示唆しています。
この実証的調査は、単語の極性の変動に影響を与える要因に関する貴重な洞察に貢献し、スペイン語での極性の判断を捉えて予測することを目的とする NLP 実践者や、判断の変動に影響を与える要因を理解することを目的とする研究者に基盤を提供します。

要約(オリジナル)

TripAdvisor reviews and comparable data sources play an important role in many tasks in Natural Language Processing (NLP), providing a data basis for the identification and classification of subjective judgments, such as hotel or restaurant reviews, into positive or negative polarities. This study explores three important factors influencing variation in crowdsourced polarity judgments, focusing on TripAdvisor reviews in Spanish. Three hypotheses are tested: the role of Part Of Speech (POS), the impact of sentiment words such as ‘tasty’, and the influence of neutral words like ‘ok’ on judgment variation. The study’s methodology employs one-word titles, demonstrating their efficacy in studying polarity variation of words. Statistical tests on mean equality are performed on word groups of our interest. The results of this study reveal that adjectives in one-word titles tend to result in lower judgment variation compared to other word types or POS. Sentiment words contribute to lower judgment variation as well, emphasizing the significance of sentiment words in research on polarity judgments, and neutral words are associated with higher judgment variation as expected. However, these effects cannot be always reproduced in longer titles, which suggests that longer titles do not represent the best data source for testing the ambiguity of single words due to the influence on word polarity by other words like negation in longer titles. This empirical investigation contributes valuable insights into the factors influencing polarity variation of words, providing a foundation for NLP practitioners that aim to capture and predict polarity judgments in Spanish and for researchers that aim to understand factors influencing judgment variation.

arxiv情報

著者 Olga Kellert,Carlos Gómez-Rodríguez,Mahmud Uz Zaman
発行日 2024-05-20 14:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, 91F20, cs.CL, I.2.7 パーマリンク