要約
最大の公的に利用可能な臨床コーパスであるClintext-SPを導入することにより、スペインの臨床自然言語処理に新しい貢献を提示します。
私たちのコーパスは、医学雑誌からの臨床症例や共有タスクの注釈付きコーパスなど、多様なオープンソースから細心の注意を払ってキュレーションされ、以前はアクセスが困難であった豊かで多様なデータセットを提供しました。
この包括的なデータセットでドメイン適応前削除を介して開発されたRigoberta Clinicalは、複数の臨床NLPベンチマーク上の既存のモデルを大幅に上回っています。
データセットとモデルの両方を公開することにより、臨床NLPのさらなる進歩を促進し、最終的にはヘルスケアアプリケーションの改善に貢献できる堅牢なリソースを研究コミュニティに強化することを目指しています。
要約(オリジナル)
We present a novel contribution to Spanish clinical natural language processing by introducing the largest publicly available clinical corpus, ClinText-SP, along with a state-of-the-art clinical encoder language model, RigoBERTa Clinical. Our corpus was meticulously curated from diverse open sources, including clinical cases from medical journals and annotated corpora from shared tasks, providing a rich and diverse dataset that was previously difficult to access. RigoBERTa Clinical, developed through domain-adaptive pretraining on this comprehensive dataset, significantly outperforms existing models on multiple clinical NLP benchmarks. By publicly releasing both the dataset and the model, we aim to empower the research community with robust resources that can drive further advancements in clinical NLP and ultimately contribute to improved healthcare applications.
arxiv情報
著者 | Guillem García Subies,Álvaro Barbero Jiménez,Paloma Martínez Fernández |
発行日 | 2025-03-24 11:52:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google