BioMNER: A Dataset for Biomedical Method Entity Recognition

要約

固有表現認識 (NER) は、自然言語処理の分野における基本的かつ極めて重要なタスクとして機能します。
特に生物医学的方法 NER の分野では、この課題は、学術文献における分野固有の用語の絶え間ない流入に起因して、顕著な課題を提示しています。
生物医学的方法 (BioMethod) NER の現在の研究は、主に方法論的概念の複雑な性質に起因するリソースの不足に悩まされており、正確な描写には深い理解が必要です。
この研究では、自動化された BioMethod エンティティ認識および人間によるアノテーションを支援する情報検索システムを採用した、生物医学法エンティティ認識のための新しいデータセットを提案します。
さらに、データセットにカスタマイズされた最先端の大規模言語モデル (LLM) の利用を含む、従来および現代のオープンドメイン NER 手法の範囲を包括的に調査します。
私たちの経験的発見は、言語モデルのパラメータ数が大きいと、生物医学的手法に関連するエンティティ抽出パターンの効果的な同化を驚くほど阻害することを明らかにしています。
注目すべきことに、このアプローチでは、適度なサイズの ALBERT モデル (わずか 11MB) を利用し、条件付きランダム フィールド (CRF) と組み合わせて、最先端 (SOTA) のパフォーマンスを実現しています。

要約(オリジナル)

Named entity recognition (NER) stands as a fundamental and pivotal task within the realm of Natural Language Processing. Particularly within the domain of Biomedical Method NER, this task presents notable challenges, stemming from the continual influx of domain-specific terminologies in scholarly literature. Current research in Biomedical Method (BioMethod) NER suffers from a scarcity of resources, primarily attributed to the intricate nature of methodological concepts, which necessitate a profound understanding for precise delineation. In this study, we propose a novel dataset for biomedical method entity recognition, employing an automated BioMethod entity recognition and information retrieval system to assist human annotation. Furthermore, we comprehensively explore a range of conventional and contemporary open-domain NER methodologies, including the utilization of cutting-edge large-scale language models (LLMs) customised to our dataset. Our empirical findings reveal that the large parameter counts of language models surprisingly inhibit the effective assimilation of entity extraction patterns pertaining to biomedical methods. Remarkably, the approach, leveraging the modestly sized ALBERT model (only 11MB), in conjunction with conditional random fields (CRF), achieves state-of-the-art (SOTA) performance.

arxiv情報

著者 Chen Tang,Bohao Yang,Kun Zhao,Bo Lv,Chenghao Xiao,Frank Guerin,Chenghua Lin
発行日 2024-06-28 16:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク