Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis

要約

アスペクトベースの感情分析 (ABSA) は重要な感情分析タスクであり、文内の特定の側面に対する感情の極性を判断することを目的としています。
ラベル付きデータは高価で制限があるため、データ生成 (DG) が ABSA のパフォーマンスを向上させるための標準となっています。
ただし、現在の DG 手法には通常、いくつかの欠点があります。1) 流暢性と一貫性が低い、2) 生成されたデータの多様性が欠如している、3) 一部の既存のラベル付きデータに依存しているため、現実世界のシナリオでの適用が妨げられています。
大規模言語モデル (LLM) の進歩により、LLM ベースの DG は上記の問題を解決できる可能性があります。
残念ながら、LLM は幻覚を起こしやすく、望ましくないデータが生成されるため、LLM を直接プロンプトすると、目的の疑似ラベル ABSA データを生成するのが困難になります。
この目的を達成するために、ABSA のパフォーマンスを向上させるための体系的な反復データ生成フレームワーク、つまり IDG を提案します。
IDG の核心は、LLM の強力な能力 (つまり、指示に従って、コンテキスト内で学習し、内省する) を最大限に活用して、教師なし文コーパスから開始して、より流暢で多様な擬似ラベル データを反復的に生成することです。
具体的には、IDG は、幻覚によって引き起こされる予期せぬデータ生成の課題に取り組むため、新しい反復データ生成メカニズムと自己反映データ フィルタリング モジュールを設計しています。
広く使用されている 4 つの ABSA ベンチマークに関する広範な実験により、IDG が 5 つのベースライン ABSA モデル間で一貫した大幅なパフォーマンス向上をもたらすことが示されました。
さらに心強いのは、IDG によって生成された合成データは、手動でアノテーションが付けられたデータと同等またはそれ以上のパフォーマンスを達成できることです。

要約(オリジナル)

Aspect-based Sentiment Analysis (ABSA) is an important sentiment analysis task, which aims to determine the sentiment polarity towards an aspect in a sentence. Due to the expensive and limited labeled data, data generation (DG) has become the standard for improving the performance of ABSA. However, current DG methods usually have some shortcomings: 1) poor fluency and coherence, 2) lack of diversity of generated data, and 3) reliance on some existing labeled data, hindering its applications in real-world scenarios. With the advancement of large language models (LLMs), LLM-based DG has the potential to solve the above issues. Unfortunately, directly prompting LLMs struggles to generate the desired pseudo-label ABSA data, as LLMs are prone to hallucinations, leading to undesired data generation. To this end, we propose a systematic Iterative Data Generation framework, namely IDG, to boost the performance of ABSA. The core of IDG is to make full use of the powerful abilities (i.e., instruction-following, in-context learning and self-reflection) of LLMs to iteratively generate more fluent and diverse pseudo-label data, starting from an unsupervised sentence corpus. Specifically, IDG designs a novel iterative data generation mechanism and a self-reflection data filtering module to tackle the challenges of unexpected data generation caused by hallucinations. Extensive experiments on four widely-used ABSA benchmarks show that IDG brings consistent and significant performance gains among five baseline ABSA models. More encouragingly, the synthetic data generated by IDG can achieve comparable or even better performance against the manually annotated data.

arxiv情報

著者 Qihuang Zhong,Haiyun Li,Luyao Zhuang,Juhua Liu,Bo Du
発行日 2024-09-30 10:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク