要約
電子健康記録(EHR)データを使用した動的予測モデリングは、近年大きな注目を集めています。
このようなモデルの信頼性と信頼性は、基礎となるデータの品質に大きく依存します。これは、モデル開発の前の段階、つまりEHRシステムからのデータ抽出とデータ準備によって決定されます。
この記事では、これらの段階で遭遇した40以上の課題を特定し、それらに対処するための実用的な推奨事項を提供しました。
これらの課題は、コホートの定義、結果の定義、機能エンジニアリング、およびデータクリーニングの4つのカテゴリに編成されています。
この包括的なリストは、データ抽出エンジニアと研究者のための実用的なガイドとして機能し、ベストプラクティスを促進し、臨床設定における動的予測モデルの品質と現実世界の適用性を改善します。
要約(オリジナル)
Dynamic predictive modelling using electronic health record (EHR) data has gained significant attention in recent years. The reliability and trustworthiness of such models depend heavily on the quality of the underlying data, which is, in part, determined by the stages preceding the model development: data extraction from EHR systems and data preparation. In this article, we identified over forty challenges encountered during these stages and provide actionable recommendations for addressing them. These challenges are organized into four categories: cohort definition, outcome definition, feature engineering, and data cleaning. This comprehensive list serves as a practical guide for data extraction engineers and researchers, promoting best practices and improving the quality and real-world applicability of dynamic prediction models in clinical settings.
arxiv情報
著者 | Elena Albu,Shan Gao,Pieter Stijnen,Frank E. Rademakers,Bas C T van Bussel,Taya Collyer,Tina Hernandez-Boussard,Laure Wynants,Ben Van Calster |
発行日 | 2025-03-17 17:29:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google