Injecting Categorical Labels and Syntactic Information into Biomedical NER

要約

カテゴリラベルと品詞 (POS) 情報をモデルに注入することで生物医学の固有表現認識 (NER) を改善する簡単なアプローチを紹介します。
私たちは 2 つのアプローチを使用します。最初のアプローチでは、最初にシーケンス レベルの分類器をトレーニングして文をカテゴリに分類し、文レベルのタグ (カテゴリ ラベル) を取得します。
シーケンス分類器は、ラベルを自然言語テンプレートとして変更することにより、含意問題としてモデル化されます。
これは、分類器の精度を向上させるのに役立ちます。
さらに、このラベル情報は NER モデルに注入されます。
このペーパーでは、これらのラベルと POS 属性を表現し、NER モデルに挿入する効果的な方法を示します。
2 番目のアプローチでは、カテゴリラベルと NER ラベルを共同で学習します。
ここでは、モデルに POS タグを挿入して、モデルの構文コンテキストを強化します。
3 つのベンチマーク データセットの実験では、カテゴリカルなラベル情報と構文コンテキストを組み込むことが非常に有用であり、ベースラインの BERT ベースのモデルを上回るパフォーマンスを示しています。

要約(オリジナル)

We present a simple approach to improve biomedical named entity recognition (NER) by injecting categorical labels and Part-of-speech (POS) information into the model. We use two approaches, in the first approach, we first train a sequence-level classifier to classify the sentences into categories to obtain the sentence-level tags (categorical labels). The sequence classifier is modeled as an entailment problem by modifying the labels as a natural language template. This helps to improve the accuracy of the classifier. Further, this label information is injected into the NER model. In this paper, we demonstrate effective ways to represent and inject these labels and POS attributes into the NER model. In the second approach, we jointly learn the categorical labels and NER labels. Here we also inject the POS tags into the model to increase the syntactic context of the model. Experiments on three benchmark datasets show that incorporating categorical label information with syntactic context is quite useful and outperforms baseline BERT-based models.

arxiv情報

著者 Sumam Francis,Marie-Francine Moens
発行日 2023-11-06 14:03:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク