Entity-to-Text based Data Augmentation for various Named Entity Recognition Tasks

要約

データ拡張技術は、さまざまな NER タスク (フラット、ネスト、および不連続な NER タスク) におけるラベル付きデータの不足の問題を軽減するために使用されてきました。
既存の拡張技術は、テキストの意味上の一貫性を壊す元のテキスト内の単語を操作するか、元のテキスト内のエンティティの保持を無視する生成モデルを悪用するため、ネストされた不連続な NER タスクでの拡張技術の使用が妨げられます。
この研究では、元のテキストの実体リスト内のエンティティを追加、削除、置換、または交換するための EnTDA と呼ばれる新しい Entity-to-Text ベースのデータ拡張技術を提案し、これらの拡張されたエンティティ リストを採用して意味的に一貫したエンティティを保持するデータを生成します。
さまざまな NER タスク用のテキスト。
さらに、テキスト生成プロセス中の多様性を高めるために、ダイバーシティ ビーム検索を導入します。
3 つのタスク (フラット、ネスト、不連続 NER タスク) と 2 つの設定 (完全なデータと低リソース設定) にわたる 13 の NER データセットでの実験では、EnTDA がベースラインの拡張手法と比較してパフォーマンスをさらに向上できることが示されました。

要約(オリジナル)

Data augmentation techniques have been used to alleviate the problem of scarce labeled data in various NER tasks (flat, nested, and discontinuous NER tasks). Existing augmentation techniques either manipulate the words in the original text that break the semantic coherence of the text, or exploit generative models that ignore preserving entities in the original text, which impedes the use of augmentation techniques on nested and discontinuous NER tasks. In this work, we propose a novel Entity-to-Text based data augmentation technique named EnTDA to add, delete, replace or swap entities in the entity list of the original texts, and adopt these augmented entity lists to generate semantically coherent and entity preserving texts for various NER tasks. Furthermore, we introduce a diversity beam search to increase the diversity during the text generation process. Experiments on thirteen NER datasets across three tasks (flat, nested, and discontinuous NER tasks) and two settings (full data and low resource settings) show that EnTDA could bring more performance improvements compared to the baseline augmentation techniques.

arxiv情報

著者 Xuming Hu,Yong Jiang,Aiwei Liu,Zhongqiang Huang,Pengjun Xie,Fei Huang,Lijie Wen,Philip S. Yu
発行日 2023-05-26 16:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク