Multi-task Transformer with Relation-attention and Type-attention for Named Entity Recognition

要約

固有表現認識 (NER) は、自然言語処理における重要な研究課題です。
NER タスクには、フラット、ネスト、不連続エンティティ認識の 3 種類があります。
以前のシーケンシャル ラベリング モデルのほとんどはタスク固有でしたが、近年では、すべての NER タスクを seq2seq モデル フレームワークに統合する利点により、生成モデルの台頭が見られました。
有望なパフォーマンスを達成していますが、私たちのパイロット研究は、既存の生成モデルがエンティティ境界の検出とエンティティ タイプの推定に効果がないことを示しています。
この論文では、名前付きエンティティ認識タスクにエンティティ境界検出タスクを組み込むマルチタスク Transformer を提案します。
より具体的には、文内のトークン間の関係を分類することにより、エンティティ境界検出を実現します。
デコード中のエンティティ タイプ マッピングの精度を向上させるために、外部の知識ベースを採用して以前のエンティティ タイプの分布を計算し、自己およびクロスアテンション メカニズムを介して情報をモデルに組み込みます。
2 つのフラット、3 つのネストされた、および 3 つの不連続 NER データセットを含む、NER ベンチマークの広範なセットで実験を行います。
実験結果は、私たちのアプローチが生成的 NER モデルのパフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Named entity recognition (NER) is an important research problem in natural language processing. There are three types of NER tasks, including flat, nested and discontinuous entity recognition. Most previous sequential labeling models are task-specific, while recent years have witnessed the rising of generative models due to the advantage of unifying all NER tasks into the seq2seq model framework. Although achieving promising performance, our pilot studies demonstrate that existing generative models are ineffective at detecting entity boundaries and estimating entity types. This paper proposes a multi-task Transformer, which incorporates an entity boundary detection task into the named entity recognition task. More concretely, we achieve entity boundary detection by classifying the relations between tokens within the sentence. To improve the accuracy of entity-type mapping during decoding, we adopt an external knowledge base to calculate the prior entity-type distributions and then incorporate the information into the model via the self and cross-attention mechanisms. We perform experiments on an extensive set of NER benchmarks, including two flat, three nested, and three discontinuous NER datasets. Experimental results show that our approach considerably improves the generative NER model’s performance.

arxiv情報

著者 Ying Mo,Hongyin Tang,Jiahao Liu,Qifan Wang,Zenglin Xu,Jingang Wang,Wei Wu,Zhoujun Li
発行日 2023-03-20 05:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク