Development and external validation of a lung cancer risk estimation tool using gradient-boosting

要約

肺がんは世界中で重大な死亡原因となっており、生存率向上には早期発見の重要性が強調されています。
この研究では、5 年以内の肺がん発生の可能性を推定するために、PLCO がんスクリーニング試験のデータに基づいてトレーニングされ、NLST で検証された機械学習 (ML) ツールを提案します。
この研究では、PLCO (n=55,161) と NLST (n=48,595) という 2 つのデータセットを利用しました。これらのデータセットは、肺がんに関連する危険因子、臨床測定値、転帰に関する包括的な情報で構成されています。
データの前処理には、現在または元喫煙者ではない患者、および肺がんと無関係の原因で死亡した患者を除外することが含まれていました。
さらに、検閲されたデータによって引き起こされるバイアスを軽減することに重点が置かれました。
特徴選択、ハイパーパラメーターの最適化、モデルのキャリブレーションは、勾配ブースティングとデシジョン ツリーを組み合わせたアンサンブル学習アルゴリズムである XGBoost を使用して実行されました。
ML モデルは、前処理された PLCO データセットでトレーニングされ、NLST データセットでテストされました。
このモデルには、年齢、性別、喫煙歴、医学的診断、肺がんの家族歴などの特徴が組み込まれています。
モデルは適切に校正されていました (Brier スコア = 0.044)。
ROC-AUC は、PLCO データセットでは 82%、NLST データセットでは 70% でした。
PR-AUC はそれぞれ 29% と 11% でした。
肺がんスクリーニングに関する USPSTF ガイドラインと比較した場合、私たちのモデルは、PLCO データセットでは 13.1% 対 9.3%、NLST データセットでは 3.2% 対 3.1% の精度で同じ再現率を提供しました。
開発された ML ツールは、5 年以内に肺がんを発症する可能性を推定するための、無料で利用できる Web アプリケーションを提供します。
危険因子と臨床データを利用することで、個人は自分のリスクを評価し、肺がんスクリーニングに関して十分な情報に基づいた意思決定を行うことができます。
この研究は、肺がん関連死亡率の削減を目的とした早期発見と予防戦略の取り組みに貢献します。

要約(オリジナル)

Lung cancer is a significant cause of mortality worldwide, emphasizing the importance of early detection for improved survival rates. In this study, we propose a machine learning (ML) tool trained on data from the PLCO Cancer Screening Trial and validated on the NLST to estimate the likelihood of lung cancer occurrence within five years. The study utilized two datasets, the PLCO (n=55,161) and NLST (n=48,595), consisting of comprehensive information on risk factors, clinical measurements, and outcomes related to lung cancer. Data preprocessing involved removing patients who were not current or former smokers and those who had died of causes unrelated to lung cancer. Additionally, a focus was placed on mitigating bias caused by censored data. Feature selection, hyper-parameter optimization, and model calibration were performed using XGBoost, an ensemble learning algorithm that combines gradient boosting and decision trees. The ML model was trained on the pre-processed PLCO dataset and tested on the NLST dataset. The model incorporated features such as age, gender, smoking history, medical diagnoses, and family history of lung cancer. The model was well-calibrated (Brier score=0.044). ROC-AUC was 82% on the PLCO dataset and 70% on the NLST dataset. PR-AUC was 29% and 11% respectively. When compared to the USPSTF guidelines for lung cancer screening, our model provided the same recall with a precision of 13.1% vs. 9.3% on the PLCO dataset and 3.2% vs. 3.1% on the NLST dataset. The developed ML tool provides a freely available web application for estimating the likelihood of developing lung cancer within five years. By utilizing risk factors and clinical data, individuals can assess their risk and make informed decisions regarding lung cancer screening. This research contributes to the efforts in early detection and prevention strategies, aiming to reduce lung cancer-related mortality rates.

arxiv情報

著者 Pierre-Louis Benveniste,Julie Alberge,Lei Xing,Jean-Emmanuel Bibault
発行日 2023-08-23 15:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク