要約
電子医療記録は貴重な臨床データの大規模なリポジトリであり、その大部分は非構造化テキスト形式で保存されています。
このテキスト データには、臨床事象 (障害、症状、所見、投薬、処置など) が含まれており、大規模に正確に抽出できれば、疾患予測などの貴重な下流アプリケーションを可能にすることができます。
既存の固有表現認識およびリンク方法論である MedCAT を使用すると、これらの特定された概念は、下流で役立つように、患者との関連性や時間的および否定的な状態などを考慮してさらに分類 (文脈化) する必要があります。
この研究では、医療文書分類のためのさまざまな自然言語モデルの比較分析を実行します。
広範な実験により、トランスフォーマーベースの言語モデル、特に BERT の有効性が明らかになりました。
クラスの不均衡緩和技術と組み合わせると、BERT は、少数クラスのリコールに関して Bi-LSTM モデルを最大 28% 上回り、ベースライン BERT モデルを最大 16% 上回ります。
このメソッドは CogStack/MedCAT フレームワークの一部として実装されており、さらなる研究のためにコミュニティで利用できるようにされています。
要約(オリジナル)
Electronic Health Records are large repositories of valuable clinical data, with a significant portion stored in unstructured text format. This textual data includes clinical events (e.g., disorders, symptoms, findings, medications and procedures) in context that if extracted accurately at scale can unlock valuable downstream applications such as disease prediction. Using an existing Named Entity Recognition and Linking methodology, MedCAT, these identified concepts need to be further classified (contextualised) for their relevance to the patient, and their temporal and negated status for example, to be useful downstream. This study performs a comparative analysis of various natural language models for medical text classification. Extensive experimentation reveals the effectiveness of transformer-based language models, particularly BERT. When combined with class imbalance mitigation techniques, BERT outperforms Bi-LSTM models by up to 28% and the baseline BERT model by up to 16% for recall of the minority classes. The method has been implemented as part of CogStack/MedCAT framework and made available to the community for further research.
arxiv情報
著者 | Shubham Agarwal,Thomas Searle,Mart Ratas,Anthony Shek,James Teo,Richard Dobson |
発行日 | 2024-08-30 10:28:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google