Composited-Nested-Learning with Data Augmentation for Nested Named Entity Recognition

要約

ネストされた固有表現認識 (NNER) は、重複する固有表現認識に対処することに重点を置いています。
Flat Named Entity Recognition (FNER) と比較すると、NNER のコーパスには注釈付きリソースが不足しています。
データ拡張は、不十分な注釈付きコーパスに対処する効果的なアプローチです。
ただし、NNER のデータ拡張方法の探索は大幅に不足しています。
NNER にはネストされたエンティティが存在するため、既存のデータ拡張メソッドを NNER タスクに直接適用することはできません。
したがって、この研究では、NNER のデータ拡張に焦点を当て、入れ子になったエンティティをモデル化するために、構成要素が入れ子になった単語と入れ子になったラベルによって結合される、より表現力豊かな構造である複合入れ子ラベル分類 (CNLC) に頼ります。
データセットは、複合入れ子学習 (CNL) を使用して拡張されます。
さらに、生成されたデータをより効率的に選択するための信頼フィルター メカニズム (CFM) を提案します。
実験結果は、このアプローチにより ACE2004 および ACE2005 が改​​善され、サンプルの不均衡の影響が軽減されることを示しています。

要約(オリジナル)

Nested Named Entity Recognition (NNER) focuses on addressing overlapped entity recognition. Compared to Flat Named Entity Recognition (FNER), annotated resources are scarce in the corpus for NNER. Data augmentation is an effective approach to address the insufficient annotated corpus. However, there is a significant lack of exploration in data augmentation methods for NNER. Due to the presence of nested entities in NNER, existing data augmentation methods cannot be directly applied to NNER tasks. Therefore, in this work, we focus on data augmentation for NNER and resort to more expressive structures, Composited-Nested-Label Classification (CNLC) in which constituents are combined by nested-word and nested-label, to model nested entities. The dataset is augmented using the Composited-Nested-Learning (CNL). In addition, we propose the Confidence Filtering Mechanism (CFM) for a more efficient selection of generated data. Experimental results demonstrate that this approach results in improvements in ACE2004 and ACE2005 and alleviates the impact of sample imbalance.

arxiv情報

著者 Xingming Liao,Nankai Lin,Haowen Li,Lianglun Cheng,Zhuowei Wang,Chong Chen
発行日 2024-06-18 16:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク