Explainable AI for Classifying UTI Risk Groups Using a Real-World Linked EHR and Pathology Lab Dataset

要約

電子医療記録 (EHR) での機械学習と AI の使用には、臨床上の洞察が得られる大きな可能性があります。
ただし、このアプローチは、データの不均一性、まばらさ、時間的不整合、ラベル付けされた結果の制限などにより、重大な課題に直面しています。
これに関連して、当社は英国のブリストル、ノースサマセット、サウスグロスターシャーの匿名化された約 100 万人の個人からなるリンクされた EHR データセットを活用して、尿路感染症 (UTI) を特徴付け、データの品質、公平性、透明性に焦点を当てた予測モデルを開発しています。

包括的なデータ前処理およびキュレーション パイプラインにより、生の EHR データが AI モデリングに適した構造化形式に変換されます。
グラウンドトゥルースのUTI結果の入手可能性が限られていることと偏りがあることを考慮して、個々の患者のタイムライン全体でUTIリスクを推定するために、臨床専門知識に基づいたUTIリスク推定フレームワークを導入します。
このフレームワークを使用して、説明可能な AI 技術を使用して UTI リスク カテゴリを区別し、解釈可能性を確保しながら主要な予測因子を特定するペアワイズ XGBoost モデルを構築しました。
私たちの調査結果は、リスクグループ間の臨床的および人口統計的要因の違いを明らかにし、UTIのリスク層別と進行についての洞察を提供します。
この研究は、解釈可能性、透明性、公平性を優先しながら、UTI の臨床意思決定に対する AI 主導の洞察の付加価値を実証し、健康成果の向上における健全なデータ実践の重要性を強調しています。

要約(オリジナル)

The use of machine learning and AI on electronic health records (EHRs) holds substantial potential for clinical insight. However, this approach faces significant challenges due to data heterogeneity, sparsity, temporal misalignment, and limited labeled outcomes. In this context, we leverage a linked EHR dataset of approximately one million de-identified individuals from Bristol, North Somerset, and South Gloucestershire, UK, to characterize urinary tract infections (UTIs) and develop predictive models focused on data quality, fairness and transparency. A comprehensive data pre-processing and curation pipeline transforms the raw EHR data into a structured format suitable for AI modeling. Given the limited availability and biases of ground truth UTI outcomes, we introduce a UTI risk estimation framework informed by clinical expertise to estimate UTI risk across individual patient timelines. Using this framework, we built pairwise XGBoost models to differentiate UTI risk categories with explainable AI techniques to identify key predictors while ensuring interpretability. Our findings reveal differences in clinical and demographic factors across risk groups, offering insights into UTI risk stratification and progression. This study demonstrates the added value of AI-driven insights into UTI clinical decision-making while prioritizing interpretability, transparency, and fairness, underscoring the importance of sound data practices in advancing health outcomes.

arxiv情報

著者 Yujie Dai,Brian Sullivan,Axel Montout,Amy Dillon,Chris Waller,Peter Acs,Rachel Denholm,Philip Williams,Alastair D Hay,Raul Santos-Rodriguez,Andrew Dowsey
発行日 2024-11-26 18:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク