UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition

要約

事前に訓練されたトランス語モデル(LMS)は、近年、応用NLPの支配的なパラダイムになりました。
これらのモデルは、情報抽出、質問回答、センチメント分析、文書分類など、情報抽出、質問の回答、文書分類などのタスクで最先端のパフォーマンスを達成しています。
生物医学ドメインでは、このパラダイムをドメイン固有の知識の統合と言語の統計モデリングを必要とするNLPタスクに適応することにおいて、かなりの進歩が遂げられています。
特に、この分野の研究は、医療テキストのトークン分布のパターンだけでなく、UMLSなどの用語リソースに含まれる構造化された情報の豊富な情報も考慮に入れるLMSを構築する最善の方法の問題に焦点を当てています。
この作業は、UMLSからテキストシーケンスを抽出することにより、生物医学トランスエンコーダーLMSの言語表現を豊かにするためのデータ中心のパラダイムに寄与します。
これにより、グラフベースの学習目標をマスクされた言語の事前トレーニングと組み合わせることができます。
事前に訓練されたLMSの拡張における実験の予備的な結果とゼロからのトレーニングは、このフレームワークが複数の生物医学的および臨床指定されたエンティティ認識(NER)タスクの下流のパフォーマンスを改善することを示しています。

要約(オリジナル)

Pre-trained transformer language models (LMs) have in recent years become the dominant paradigm in applied NLP. These models have achieved state-of-the-art performance on tasks such as information extraction, question answering, sentiment analysis, document classification and many others. In the biomedical domain, significant progress has been made in adapting this paradigm to NLP tasks that require the integration of domain-specific knowledge as well as statistical modelling of language. In particular, research in this area has focused on the question of how best to construct LMs that take into account not only the patterns of token distribution in medical text, but also the wealth of structured information contained in terminology resources such as the UMLS. This work contributes a data-centric paradigm for enriching the language representations of biomedical transformer-encoder LMs by extracting text sequences from the UMLS. This allows for graph-based learning objectives to be combined with masked-language pre-training. Preliminary results from experiments in the extension of pre-trained LMs as well as training from scratch show that this framework improves downstream performance on multiple biomedical and clinical Named Entity Recognition (NER) tasks.

arxiv情報

著者 Aidan Mannion,Thierry Chevalier,Didier Schwab,Lorraine Geouriot
発行日 2025-04-11 11:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク