What is Hiding in Medicine’s Dark Matter? Learning with Missing Data in Medical Practices

要約

電子患者記録 (EPR) は豊富なデータを生成しますが、重大な欠落情報が含まれています。
この欠落データを理解し、処理することは臨床データ分析の重要な部分であり、対処しないままにしておくと、分析に偏りが生じたり、重要な結論が歪められたりする可能性があります。
欠損データは医療専門家の診療パターンに関連付けられている可能性があり、欠損データの補完によって臨床上の決定の妥当性を高めることができます。
この研究は、欠損データを理解して解釈するための統計的アプローチと、単一センターの小児救急データと英国最大の外傷性損傷臨床監査データベース (TARN) のデータを使用した機械学習ベースの臨床データ補完に焦点を当てています。
救急外来を受診した小児の初期バイタルサインと観察に関連する 56,961 件のデータポイントの研究で、欠損データがランダムではない可能性が高く、これらのデータが医療専門家の実践パターンとどのように関連しているかを示しました。
次に、5,791 件の外傷症例について、欠損値のある 79 の TARN フィールドを調べました。
特異値分解 (SVD) および k 最近傍 (kNN) ベースの欠損データ補完手法が使用され、元のデータセットに対する補完結果が比較され、統計的にテストされます。
我々は、1NN インピューターが、最も類似した患者を見つけてその属性を代入として採用するという臨床意思決定の通常のパターンを示す最良の代入であると結論付けました。

要約(オリジナル)

Electronic patient records (EPRs) produce a wealth of data but contain significant missing information. Understanding and handling this missing data is an important part of clinical data analysis and if left unaddressed could result in bias in analysis and distortion in critical conclusions. Missing data may be linked to health care professional practice patterns and imputation of missing data can increase the validity of clinical decisions. This study focuses on statistical approaches for understanding and interpreting the missing data and machine learning based clinical data imputation using a single centre’s paediatric emergency data and the data from UK’s largest clinical audit for traumatic injury database (TARN). In the study of 56,961 data points related to initial vital signs and observations taken on children presenting to an Emergency Department, we have shown that missing data are likely to be non-random and how these are linked to health care professional practice patterns. We have then examined 79 TARN fields with missing values for 5,791 trauma cases. Singular Value Decomposition (SVD) and k-Nearest Neighbour (kNN) based missing data imputation methods are used and imputation results against the original dataset are compared and statistically tested. We have concluded that the 1NN imputer is the best imputation which indicates a usual pattern of clinical decision making: find the most similar patients and take their attributes as imputation.

arxiv情報

著者 Neslihan Suzen,Evgeny M. Mirkes,Damian Roland,Jeremy Levesley,Alexander N. Gorban,Tim J. Coats
発行日 2024-02-09 17:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IT, cs.LG, math.IT パーマリンク