BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP

要約

エンコーダーベースのトランスモデルは、生物医学および臨床自然言語処理(NLP)の中心であり、双方向の自己触媒により、識別タスクを介して構造化されたテキストから構造化された情報を効率的に抽出するのに適しています。
ただし、エンコーダーはデコーダーモデルと比較して開発が遅くなっており、生物医学および臨床設定でのドメイン適応が限られています。
生物医学および臨床NLPの速度と性能の大幅な改善を組み込んだ最近のModernbertリリースに基づいたドメイン適応エンコーダーであるBioclinical Modernbertを紹介します。
Bioclinical Modernbertは、これまでで最大の生物医学および臨床コーパスの継続的な事前供与を通じて開発され、535億を超えるトークンを備えており、単一のソースからのデータを削除するのではなく、多様な機関、ドメイン、地理的領域からの20のデータセットを活用することにより、以前の臨床エンコーダの重要な制限に対処します。
幅広いユースケースにまたがる4つのダウンストリームタスクで、既存の生物医学および臨床エンコーダを上回ります。
Bioclinical Modernbertのベース(150mパラメーター)と大規模(396mパラメーター)バージョンの両方をリリースし、さらに調査をサポートするためのトレーニングチェックポイントをリリースします。

要約(オリジナル)

Encoder-based transformer models are central to biomedical and clinical Natural Language Processing (NLP), as their bidirectional self-attention makes them well-suited for efficiently extracting structured information from unstructured text through discriminative tasks. However, encoders have seen slower development compared to decoder models, leading to limited domain adaptation in biomedical and clinical settings. We introduce BioClinical ModernBERT, a domain-adapted encoder that builds on the recent ModernBERT release, incorporating long-context processing and substantial improvements in speed and performance for biomedical and clinical NLP. BioClinical ModernBERT is developed through continued pretraining on the largest biomedical and clinical corpus to date, with over 53.5 billion tokens, and addresses a key limitation of prior clinical encoders by leveraging 20 datasets from diverse institutions, domains, and geographic regions, rather than relying on data from a single source. It outperforms existing biomedical and clinical encoders on four downstream tasks spanning a broad range of use cases. We release both base (150M parameters) and large (396M parameters) versions of BioClinical ModernBERT, along with training checkpoints to support further research.

arxiv情報

著者 Thomas Sounack,Joshua Davis,Brigitte Durieux,Antoine Chaffin,Tom J. Pollard,Eric Lehman,Alistair E. W. Johnson,Matthew McDermott,Tristan Naumann,Charlotta Lindvall
発行日 2025-06-12 17:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク