要約
背景: 自然言語処理 (NLP) は、電子医療記録 (EHR) から臨床上の洞察を抽出するために広く使用されています。
ただし、注釈付きデータの欠如、自動化ツール、その他の課題により、EHR での NLP の完全な活用が妨げられています。
この分野の限界と機会を包括的に理解するために、さまざまな機械学習 (ML)、深層学習 (DL)、および NLP 手法が研究および比較されます。
方法論: 11 のデータベースから 261 の論文をスクリーニングした後、1) 医療ノートの分類、2) 臨床エンティティの認識、3) テキストの要約、4) 深層学習 (DL)、および
転移学習アーキテクチャ、5) 情報抽出、6) 医療言語翻訳、7) その他の NLP アプリケーション。
この研究は、系統的レビューおよびメタ分析のための優先報告項目 (PRISMA) ガイドラインに従っています。
結果と考察: EHR は、選択された論文の中で最も一般的に使用されたデータ タイプであり、データセットは主に非構造化でした。
さまざまな ML および DL 手法が使用され、ML または DL の最も一般的なアプリケーションは予測または分類でした。
最も一般的な使用例は、国際疾病分類第 9 改訂 (ICD-9) 分類、臨床記録分析、および精神疾患の臨床記述と研究のための固有表現認識 (NER) でした。
結論: 採用された ML モデルが適切に評価されていないことがわかりました。
さらに、データの不均衡の問題は非常に重要ですが、この根本的な問題に対処する手法を見つける必要があります。
今後の研究では、主にループス腎炎、自殺未遂、周産期の自傷行為、ICD-9分類を特定するなど、研究における重要な限界に対処する必要がある。
要約(オリジナル)
Background: Natural Language Processing (NLP) is widely used to extract clinical insights from Electronic Health Records (EHRs). However, the lack of annotated data, automated tools, and other challenges hinder the full utilisation of NLP for EHRs. Various Machine Learning (ML), Deep Learning (DL) and NLP techniques are studied and compared to understand the limitations and opportunities in this space comprehensively. Methodology: After screening 261 articles from 11 databases, we included 127 papers for full-text review covering seven categories of articles: 1) medical note classification, 2) clinical entity recognition, 3) text summarisation, 4) deep learning (DL) and transfer learning architecture, 5) information extraction, 6) Medical language translation and 7) other NLP applications. This study follows the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines. Result and Discussion: EHR was the most commonly used data type among the selected articles, and the datasets were primarily unstructured. Various ML and DL methods were used, with prediction or classification being the most common application of ML or DL. The most common use cases were: the International Classification of Diseases, Ninth Revision (ICD-9) classification, clinical note analysis, and named entity recognition (NER) for clinical descriptions and research on psychiatric disorders. Conclusion: We find that the adopted ML models were not adequately assessed. In addition, the data imbalance problem is quite important, yet we must find techniques to address this underlining problem. Future studies should address key limitations in studies, primarily identifying Lupus Nephritis, Suicide Attempts, perinatal self-harmed and ICD-9 classification.
arxiv情報
著者 | Elias Hossain,Rajib Rana,Niall Higgins,Jeffrey Soar,Prabal Datta Barua,Anthony R. Pisani,Ph. D,Kathryn Turner} |
発行日 | 2023-06-22 12:10:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google