Combining Survival Analysis and Machine Learning for Mass Cancer Risk Prediction using EHR data

要約

純粋に医学的ながんスクリーニング方法は、多くの場合、費用と時間がかかり、大規模に適用するには弱いです。
高度な人工知能 (AI) 手法はがんの検出に大きく役立ちますが、特定の詳細な医療データが必要です。
これらの側面は、がんスクリーニング法の大量導入に影響を与えます。
これらの理由から、既存の電子医療記録 (EHR) ボリュームに基づいて、患者のがんリスクを個別に大量に評価するために AI 手法を適用することは、医療業界にとって破壊的な変化です。
この論文では、EHR データを使用した集団癌リスク予測の新しい方法を紹介します。
他の方法の中でも、私たちの方法は最小限のデータ貪欲ポリシーによって際立っており、医療サービス コードと EHR からの診断の履歴のみが必要です。
この問題を二項分類として定式化します。
このデータセットには、匿名化された 175,441 人の患者 (癌と診断された患者は 2,861 人) が含まれています。
ベースラインとして、リカレント ニューラル ネットワーク (RNN) に基づくソリューションを実装します。
私たちは、機械学習と生存分析を組み合わせた方法を提案します。これらのアプローチは計算量が少なく、アンサンブル (生存アンサンブル) に組み合わせることができ、ほとんどの医療機関で再現できるためです。
いくつかの研究でサバイバル アンサンブルをテストします。
まず、主要指標 (平均精度) の値の間に有意な差があり、サバイバル アンサンブルでは 22.8% (ROC AUC 83.7%、F1 17.8%) に対し、ベースラインでは 15.1% (ROC AUC 84.9%、F1 21.4%) でした。

第二に、サバイバル アンサンブルのパフォーマンスもアブレーション研究中に確認されます。
第三に、私たちの方法は年齢ベースラインを大幅に上回っています。
第 4 に、時間外のブラインド遡及実験において、提案された方法は癌患者の検出において信頼性があります (100 人中 9 人が選択)。
このような結果は、医療スクリーニングの推定値、たとえばスクリーニングに必要な最良の数(1000 回のスクリーニングのうち 9 回)を超えています。

要約(オリジナル)

Purely medical cancer screening methods are often costly, time-consuming, and weakly applicable on a large scale. Advanced Artificial Intelligence (AI) methods greatly help cancer detection but require specific or deep medical data. These aspects affect the mass implementation of cancer screening methods. For these reasons, it is a disruptive change for healthcare to apply AI methods for mass personalized assessment of the cancer risk among patients based on the existing Electronic Health Records (EHR) volume. This paper presents a novel method for mass cancer risk prediction using EHR data. Among other methods, our one stands out by the minimum data greedy policy, requiring only a history of medical service codes and diagnoses from EHR. We formulate the problem as a binary classification. This dataset contains 175 441 de-identified patients (2 861 diagnosed with cancer). As a baseline, we implement a solution based on a recurrent neural network (RNN). We propose a method that combines machine learning and survival analysis since these approaches are less computationally heavy, can be combined into an ensemble (the Survival Ensemble), and can be reproduced in most medical institutions. We test the Survival Ensemble in some studies. Firstly, we obtain a significant difference between values of the primary metric (Average Precision) with 22.8% (ROC AUC 83.7%, F1 17.8%) for the Survival Ensemble versus 15.1% (ROC AUC 84.9%, F1 21.4%) for the Baseline. Secondly, the performance of the Survival Ensemble is also confirmed during the ablation study. Thirdly, our method exceeds age baselines by a significant margin. Fourthly, in the blind retrospective out-of-time experiment, the proposed method is reliable in cancer patient detection (9 out of 100 selected). Such results exceed the estimates of medical screenings, e.g., the best Number Needed to Screen (9 out of 1000 screenings).

arxiv情報

著者 Petr Philonenko,Vladimir Kokh,Pavel Blinov
発行日 2023-09-26 16:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP パーマリンク