要約
データ拡張は、データの希薄性の問題に対処するために、低リソースの NER タスクで広く使用されています。
ただし、以前のデータ拡張方法には、構文構造の破壊、トークンとラベルの不一致、外部知識や手作業の必要性などの欠点がありました。
これらの問題に対処するために、低リソース NER 向けの堅牢なプロンプトベースのデータ拡張 (RoPDA) を提案します。
RoPDA は、継続的なプロンプトを備えた事前トレーニング済みの言語モデル (PLM) に基づいて、5 つの基本的な拡張操作を通じてエンティティ拡張とコンテキスト拡張を実行し、ラベル反転およびラベル保持のサンプルを生成します。
拡張サンプルの利用を最適化するために、自己一貫性フィルタリングとミックスアップという 2 つの手法を紹介します。
前者は低品質のサンプルを効果的に排除し、後者はラベル反転サンプルの直接利用から生じるパフォーマンスの低下を防ぎます。
異なるドメインの 3 つのベンチマークに関する広範な実験により、RoPDA が強力なベースラインに基づいて大幅に向上し、ラベルなしのデータが含まれる場合には最先端の半教師あり学習手法を上回るパフォーマンスを示すことが実証されました。
要約(オリジナル)
Data augmentation has been widely used in low-resource NER tasks to tackle the problem of data sparsity. However, previous data augmentation methods have the disadvantages of disrupted syntactic structures, token-label mismatch, and requirement for external knowledge or manual effort. To address these issues, we propose Robust Prompt-based Data Augmentation (RoPDA) for low-resource NER. Based on pre-trained language models (PLMs) with continuous prompt, RoPDA performs entity augmentation and context augmentation through five fundamental augmentation operations to generate label-flipping and label-preserving examples. To optimize the utilization of the augmented samples, we present two techniques: Self-Consistency Filtering and mixup. The former effectively eliminates low-quality samples, while the latter prevents performance degradation arising from the direct utilization of label-flipping samples. Extensive experiments on three benchmarks from different domains demonstrate that RoPDA significantly improves upon strong baselines, and also outperforms state-of-the-art semi-supervised learning methods when unlabeled data is included.
arxiv情報
著者 | Sihan Song,Furao Shen,Jian Zhao |
発行日 | 2023-07-17 06:08:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google