要約
目的: 臨床的な大規模言語モデルの一般化可能性は、通常、モデル開発プロセス中に無視されます。
この研究では、乳がんの表現型抽出タスクを通じて、さまざまな臨床環境での BERT ベースの臨床 NLP モデルの一般化可能性を評価しました。
材料と方法: ミネソタ大学とメイヨー クリニックの電子カルテから乳癌患者の 2 つの臨床コーパスを収集し、同じガイドラインに従って注釈を付けました。
臨床テキストからがんの表現型を抽出するために、3 種類の NLP モデル (条件付きランダム フィールド、双方向長短期記憶、CancerBERT) を開発しました。
モデルは、さまざまな学習戦略 (モデル転送とローカル トレーニング) を使用したさまざまなテスト セットで一般化可能性について評価されました。
エンティティ カバレッジ スコアは、モデルのパフォーマンスとの関連性で評価されました。
結果: UMN と MC でそれぞれ 200 と 161 の臨床文書に手動で注釈を付けました。
2 つの機関のコーパスは、コーパス全体よりも対象エンティティ間の類似性が高いことがわかりました。
CancerBERT モデルは、2 つの臨床機関からの独立したテスト セットと順列テスト セットの中で最高のパフォーマンスを得ました。
ある機関で開発され、別の機関でさらに微調整された CancerBERT モデルは、ローカル データで開発されたモデルと比較して妥当なパフォーマンスを達成しました (マイクロ F1: 0.925 対 0.932)。
結論: この結果は、CancerBERT モデルが 3 種類の臨床 NLP モデルの中で最高の学習能力と一般化可能性を備えていることを示しています。
モデルの一般化可能性は、コーパス間のターゲット エンティティの類似性と相関することがわかりました。
要約(オリジナル)
Objective: The generalizability of clinical large language models is usually ignored during the model development process. This study evaluated the generalizability of BERT-based clinical NLP models across different clinical settings through a breast cancer phenotype extraction task. Materials and Methods: Two clinical corpora of breast cancer patients were collected from the electronic health records from the University of Minnesota and the Mayo Clinic, and annotated following the same guideline. We developed three types of NLP models (i.e., conditional random field, bi-directional long short-term memory and CancerBERT) to extract cancer phenotypes from clinical texts. The models were evaluated for their generalizability on different test sets with different learning strategies (model transfer vs. locally trained). The entity coverage score was assessed with their association with the model performances. Results: We manually annotated 200 and 161 clinical documents at UMN and MC, respectively. The corpora of the two institutes were found to have higher similarity between the target entities than the overall corpora. The CancerBERT models obtained the best performances among the independent test sets from two clinical institutes and the permutation test set. The CancerBERT model developed in one institute and further fine-tuned in another institute achieved reasonable performance compared to the model developed on local data (micro-F1: 0.925 vs 0.932). Conclusions: The results indicate the CancerBERT model has the best learning ability and generalizability among the three types of clinical NLP models. The generalizability of the models was found to be correlated with the similarity of the target entities between the corpora.
arxiv情報
著者 | Sicheng Zhou,Nan Wang,Liwei Wang,Ju Sun,Anne Blaes,Hongfang Liu,Rui Zhang |
発行日 | 2023-03-15 08:44:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google