Biomedical Named Entity Recognition via Dictionary-based Synonym Generalization

要約

生物医学固有表現認識は、生物医学自然言語処理 (BioNLP) の中核となるタスクの 1 つです。
この課題に取り組むために、多数の監視あり/遠隔監視アプローチが提案されています。
目覚ましい成功を収めたにもかかわらず、これらのアプローチには多大な労力を要する人間の努力が避けられません。
人間の労力の必要性を軽減するために、単に与えられた辞書に基づいて固有表現を抽出する辞書ベースのアプローチが提案されています。
ただし、既存の辞書ベースのアプローチの欠点の 1 つは、特定の辞書にリストされていない概念の同義語を識別するという課題があり、これを同義語一般化問題と呼びます。
この研究では、スパンベースの予測を使用して入力テキストに含まれる生物医学概念を認識する新しい Synonym Generalization (SynGen) フレームワークを提案します。
特に、SynGen は 2 つの正則化用語を導入しています。それは、(1) 同義語距離正則化です。
(2) 同義語汎化エラーを最小限に抑えるためのノイズ摂動正則化機能。
私たちのアプローチの有効性を実証するために、同義語汎化誤差の限界の理論的分析を提供します。
私たちは幅広いベンチマークでアプローチを徹底的に評価し、その結果、SynGen が以前の辞書ベースのモデルよりも顕著な差をつけて優れていることが確認されました。
最後に、私たちのアプローチの利点と内部の仕組みをさらに明らかにするために、詳細な分析を提供します。

要約(オリジナル)

Biomedical named entity recognition is one of the core tasks in biomedical natural language processing (BioNLP). To tackle this task, numerous supervised/distantly supervised approaches have been proposed. Despite their remarkable success, these approaches inescapably demand laborious human effort. To alleviate the need of human effort, dictionary-based approaches have been proposed to extract named entities simply based on a given dictionary. However, one downside of existing dictionary-based approaches is that they are challenged to identify concept synonyms that are not listed in the given dictionary, which we refer as the synonym generalization problem. In this study, we propose a novel Synonym Generalization (SynGen) framework that recognizes the biomedical concepts contained in the input text using span-based predictions. In particular, SynGen introduces two regularization terms, namely, (1) a synonym distance regularizer; and (2) a noise perturbation regularizer, to minimize the synonym generalization error. To demonstrate the effectiveness of our approach, we provide a theoretical analysis of the bound of synonym generalization error. We extensively evaluate our approach on a wide range of benchmarks and the results verify that SynGen outperforms previous dictionary-based models by notable margins. Lastly, we provide a detailed analysis to further reveal the merits and inner-workings of our approach.

arxiv情報

著者 Zihao Fu,Yixuan Su,Zaiqiao Meng,Nigel Collier
発行日 2023-10-13 11:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク