Comparing and combining some popular NER approaches on Biomedical tasks

要約

NER の 3 つのシンプルで一般的なアプローチを比較します。1) SEQ (線形トークン分類子によるシーケンス ラベリング)、2) SeqCRF (条件付きランダム フィールドによるシーケンス ラベリング)、3) SpanPred (境界トークン埋め込みによるスパン予測)。
4 つの生物医学 NER タスク、GENIA、NCBI-Disease、LivingNER (スペイン語)、および SocialDisNER (スペイン語) に対するアプローチを比較します。
SpanPred モデルは、LivingNER と SocialDisNER で最先端のパフォーマンスを実証し、F1 をそれぞれ 1.3 および 0.6 F1 改善しました。
SeqCRF モデルは、LivingNER と SocialDisNER でも最先端のパフォーマンスを示し、F1 をそれぞれ 0.2 F1 と 0.7 改善しました。
SEQ モデルは、LivingNER データセットの最先端のモデルと競合します。
3 つのアプローチを組み合わせる簡単な方法をいくつか検討します。
多数決により、4 つのデータセットすべてで一貫して高い精度と高い F1 が得られることがわかりました。
最後に、SEQ と SpanPred の予測を組み合わせることを学習するシステムを実装し、4 つのデータセットすべてにわたって一貫して高い再現率と高い F1 を与えるシステムを生成します。
GENIA データセットでは、学習されたコンバイナー システムが、結合されているシステムに比べて F1(+1.2) とリコール(+2.1) を大幅に向上させていることがわかります。
すべてのシステムを再現するために必要な、十分に文書化されたコードをすべて https://github.com/flyingmothman/bionlp でリリースします。

要約(オリジナル)

We compare three simple and popular approaches for NER: 1) SEQ (sequence-labeling with a linear token classifier) 2) SeqCRF (sequence-labeling with Conditional Random Fields), and 3) SpanPred (span-prediction with boundary token embeddings). We compare the approaches on 4 biomedical NER tasks: GENIA, NCBI-Disease, LivingNER (Spanish), and SocialDisNER (Spanish). The SpanPred model demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 1.3 and 0.6 F1 respectively. The SeqCRF model also demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 0.2 F1 and 0.7 respectively. The SEQ model is competitive with the state-of-the-art on the LivingNER dataset. We explore some simple ways of combining the three approaches. We find that majority voting consistently gives high precision and high F1 across all 4 datasets. Lastly, we implement a system that learns to combine the predictions of SEQ and SpanPred, generating systems that consistently give high recall and high F1 across all 4 datasets. On the GENIA dataset, we find that our learned combiner system significantly boosts F1(+1.2) and recall(+2.1) over the systems being combined. We release all the well-documented code necessary to reproduce all systems at https://github.com/flyingmothman/bionlp.

arxiv情報

著者 Harsh Verma,Sabine Bergler,Narjesossadat Tahaei
発行日 2023-05-30 15:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク