要約
この研究では、臨床物語から抽出されたエンティティ間の関係を分類するために設計されたインタラクティブなツール、ライブラリ、およびワークフローであるRelCat(Relation Concept Annotation Toolkit)を紹介します。
Cogstack Medcat Frameworkに基づいて、ReLCatはテキスト内で分散した完全な臨床関係をキャプチャするという課題に取り組んでいます。
このツールキットは、BertやLlamaなどの最先端の機械学習モデルと、実証済みの評価とトレーニング方法を実装しています。
データセットアノテーションツール(Medcattrainer内で構築)、モデルトレーニングを実証し、オープンに利用可能な金標準および実世界の英国国立健康サービス(NHS)病院の臨床データセットの両方で方法論を評価します。
モデルの微調整に選択されたさまざまなアプローチを使用して、広範な実験と、さまざまな公開されたモデルの比較分析を実行します。
最後に、ゴールドスタンダードN2C2で0.977のマクロF1スコアを達成し、以前の最先端のパフォーマンスを上回り、NHS収集データセットで> = 0.93 F1のパフォーマンスを達成します。
要約(オリジナル)
This study introduces RelCAT (Relation Concept Annotation Toolkit), an interactive tool, library, and workflow designed to classify relations between entities extracted from clinical narratives. Building upon the CogStack MedCAT framework, RelCAT addresses the challenge of capturing complete clinical relations dispersed within text. The toolkit implements state-of-the-art machine learning models such as BERT and Llama along with proven evaluation and training methods. We demonstrate a dataset annotation tool (built within MedCATTrainer), model training, and evaluate our methodology on both openly available gold-standard and real-world UK National Health Service (NHS) hospital clinical datasets. We perform extensive experimentation and a comparative analysis of the various publicly available models with varied approaches selected for model fine-tuning. Finally, we achieve macro F1-scores of 0.977 on the gold-standard n2c2, surpassing the previous state-of-the-art performance, and achieve performance of >=0.93 F1 on our NHS gathered datasets.
arxiv情報
著者 | Shubham Agarwal,Vlad Dinu,Thomas Searle,Mart Ratas,Anthony Shek,Dan F. Stein,James Teo,Richard Dobson |
発行日 | 2025-01-27 14:26:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google