Explainable AI for Classifying UTI Risk Groups Using a Real-World Linked EHR and Pathology Lab Dataset

要約

電子健康記録(EHRS)での機械学習とAIの使用は、臨床的洞察の大きな可能性を秘めています。
ただし、このアプローチは、データの不均一性、スパース性、時間的不整合、および限られたラベルのある結果により、課題に直面しています。
これに関連して、英国北サマセットのブリストルとサウスグロスターシャーの約100万人の非識別された個人のリンクされたEHRデータセットを活用して、尿路感染症(UTI)を特徴付けます。
データの公平性、説明責任、透明性に焦点を当てた予測モデルを開発するのに適した構造化された形式に、生のEHRデータを変換するデータの前処理とキュレーションパイプラインを実装しました。
グラウンドトゥルースUTIの結果の入手可能性とバイアスが限られていることを考えると、個々の患者のタイムライン全体でUTIリスクを推定するために臨床専門知識から通知されたUTIリスク推定フレームワークを導入します。
ペアワイズXGBoostモデルは、このフレームワークを使用してトレーニングされ、UTIリスクカテゴリを説明可能なAIテクニックを適用して、主要な予測因子を特定し、解釈をサポートします。
私たちの調査結果は、リスクグループ全体の臨床的および人口統計学的予測因子の違いを明らかにしています。
この研究では、UTI臨床的意思決定をサポートするAI駆動型の洞察の可能性を強調していますが、臨床診療における堅牢性と適用性を確保するためには、患者サブストラタと広範な検証のさらなる調査が必要です。

要約(オリジナル)

The use of machine learning and AI on electronic health records (EHRs) holds substantial potential for clinical insight. However, this approach faces challenges due to data heterogeneity, sparsity, temporal misalignment, and limited labeled outcomes. In this context, we leverage a linked EHR dataset of approximately one million de-identified individuals from Bristol, North Somerset, and South Gloucestershire, UK, to characterize urinary tract infections (UTIs). We implemented a data pre-processing and curation pipeline that transforms the raw EHR data into a structured format suitable for developing predictive models focused on data fairness, accountability and transparency. Given the limited availability and biases of ground truth UTI outcomes, we introduce a UTI risk estimation framework informed by clinical expertise to estimate UTI risk across individual patient timelines. Pairwise XGBoost models are trained using this framework to differentiate UTI risk categories with explainable AI techniques applied to identify key predictors and support interpretability. Our findings reveal differences in clinical and demographic predictors across risk groups. While this study highlights the potential of AI-driven insights to support UTI clinical decision-making, further investigation of patient sub-strata and extensive validation are needed to ensure robustness and applicability in clinical practice.

arxiv情報

著者 Yujie Dai,Brian Sullivan,Axel Montout,Amy Dillon,Chris Waller,Peter Acs,Rachel Denholm,Philip Williams,Alastair D Hay,Raul Santos-Rodriguez,Andrew Dowsey
発行日 2025-02-28 15:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク