Leveraging deep active learning to identify low-resource mobility functioning information in public clinical notes

要約

機能は、臨床の自然言語処理研究ではほとんど注目されていませんが、人間全体の健康の重要な指標としてますます認識されています。
我々は、フリーテキストの臨床ノートからの機能情報の自動抽出と分析を容易にすることを目的として、特に国際生活機能分類(ICF)のモビリティ領域に関する注釈付きの初の公開データセットを導入します。
National NLP Clinical Challenges (n2c2) 研究データセットを利用して、キーワード拡張を使用して候補文のプールを構築します。
私たちの能動学習アプローチでは、密度の代表性によって重み付けされたクエリごとの委員会サンプリングを使用して、人間による注釈のための有益な文を選択します。
BERT モデルと CRF モデルをトレーニングし、これらのモデルからの予測を使用して、後続のアノテーション反復のための新しい文の選択をガイドします。
最終的なデータセットは、5,511 のアクション エンティティ、5,328 のモビリティ エンティティ、306 の支援エンティティ、および 639 の定量エンティティを含む、合計 11,784 のエンティティを含む 4,265 の文で構成されています。
すべてのエンティティ タイプの平均であるアノテーター間一致 (IAA) は、完全一致の場合は 0.72、部分一致の場合は 0.91 です。
また、一般的な BERT モデルと最先端のネストされた NER モデルのトレーニングと評価も行っています。
最高の F1 スコアは、アクションで 0.84、モビリティで 0.7、支援で 0.62、定量化で 0.71 です。
実証結果は、臨床テキストから運動機能情報を正確に抽出するための NER モデルの有望な可能性を示しています。
注釈付きデータセットが一般公開されることで、電子医療記録 (EHR) の機能情報を包括的に取得するためのさらなる研究が促進されます。

要約(オリジナル)

Function is increasingly recognized as an important indicator of whole-person health, although it receives little attention in clinical natural language processing research. We introduce the first public annotated dataset specifically on the Mobility domain of the International Classification of Functioning, Disability and Health (ICF), aiming to facilitate automatic extraction and analysis of functioning information from free-text clinical notes. We utilize the National NLP Clinical Challenges (n2c2) research dataset to construct a pool of candidate sentences using keyword expansion. Our active learning approach, using query-by-committee sampling weighted by density representativeness, selects informative sentences for human annotation. We train BERT and CRF models, and use predictions from these models to guide the selection of new sentences for subsequent annotation iterations. Our final dataset consists of 4,265 sentences with a total of 11,784 entities, including 5,511 Action entities, 5,328 Mobility entities, 306 Assistance entities, and 639 Quantification entities. The inter-annotator agreement (IAA), averaged over all entity types, is 0.72 for exact matching and 0.91 for partial matching. We also train and evaluate common BERT models and state-of-the-art Nested NER models. The best F1 scores are 0.84 for Action, 0.7 for Mobility, 0.62 for Assistance, and 0.71 for Quantification. Empirical results demonstrate promising potential of NER models to accurately extract mobility functioning information from clinical text. The public availability of our annotated dataset will facilitate further research to comprehensively capture functioning information in electronic health records (EHRs).

arxiv情報

著者 Tuan-Dung Le,Zhuqi Miao,Samuel Alvarado,Brittany Smith,William Paiva,Thanh Thieu
発行日 2023-11-27 15:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク