Data Augmentation for Emotion Detection in Small Imbalanced Text Data

要約

テキスト内の感情認識、つまり喜びや怒りなどの感情を識別するタスクは、NLP では多くの応用が可能な難しい問題です。
課題の 1 つは、感情の注釈が付けられた利用可能なデータセットが不足していることです。
特定の既存のデータセットは小さく、さまざまな感情分類に従っており、感情の分布に不均衡が見られます。
この研究では、現在の最先端のモデル (RoBERTa など) ではパフォーマンスが不十分な、不均衡な小さなデータセットにデータ拡張技術を適用した場合の影響を正確に研究しました。
具体的には、異なるソースから取得され、サイズ、感情カテゴリ、分布が異なる 3 つのデータセットに対して、4 つのデータ拡張手法 (Easy Data Augmentation EDA、静的およびコンテキスト埋め込みベース、ProtAugment) を利用しました。
私たちの実験結果は、分類子モデルのトレーニング時に拡張データを使用すると、大幅な改善につながることが示されています。
最後に、2 つのケース スタディを実施しました。a) 一般的なチャット GPT API を直接使用して、さまざまなプロンプトを使用してテキストを言い換える方法と、b) 外部データを使用してトレーニング セットを強化する方法です。
結果は、これらの方法の有望な可能性を示しています。

要約(オリジナル)

Emotion recognition in text, the task of identifying emotions such as joy or anger, is a challenging problem in NLP with many applications. One of the challenges is the shortage of available datasets that have been annotated with emotions. Certain existing datasets are small, follow different emotion taxonomies and display imbalance in their emotion distribution. In this work, we studied the impact of data augmentation techniques precisely when applied to small imbalanced datasets, for which current state-of-the-art models (such as RoBERTa) under-perform. Specifically, we utilized four data augmentation methods (Easy Data Augmentation EDA, static and contextual Embedding-based, and ProtAugment) on three datasets that come from different sources and vary in size, emotion categories and distributions. Our experimental results show that using the augmented data when training the classifier model leads to significant improvements. Finally, we conducted two case studies: a) directly using the popular chat-GPT API to paraphrase text using different prompts, and b) using external data to augment the training set. Results show the promising potential of these methods.

arxiv情報

著者 Anna Koufakou,Diego Grisales,Ragy Costa de jesus,Oscar Fox
発行日 2023-10-27 14:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク