Application of machine learning models to predict the relationship between air pollution, ecosystem degradation, and health disparities and lung cancer in Vietnam

要約

肺がんは世界中の死の主な原因の1つであり、ベトナムも例外ではありません。
この病気は、グローバルで2番目に一般的な癌であり、肝臓がんの直後に2番目に一般的な死因であり、23,797の致命的な症例と26,262の新しい症例、または2020年に疾患の14.4%です。
特に気候変動とともに、さまざまな種類の汚染、森林破壊、現代のライフスタイルの下で、肺がんのリスクは、特にベトナムでは赤い警告に陥ります。
ベトナムの明確な社会経済的および生態学的文脈に特に重点を置いて、環境機能や現在の健康状態を含む多様な重要な要因から、ベトナムの重度の疾患源についてさらに理解するために、患者の健康記録や、腐敗率、グリーンカバーレート、大気中collitの普通患者などの必要な情報を含む必要な情報を含む環境指標などの大規模なデータセットを利用します。
次に、それらを処理および接続し、分析方法(ヒートマップ、情報ゲイン、p値、スピアマン相関)を適用して、肺がんのリスクに影響を与える因果相関を決定します。
さらに、がんのリスクパターンを発見するために、機械学習(ML)モデル(決定ツリー、ランダムフォレスト、サポートベクターマシン、K-マインクラスタリング)を展開します。
前述のMLモデルによって活用されて疾患パターンを特定した実験結果は、特にランダムフォレスト、SVM、およびPCAとしてのモデルがデータセットでうまく機能しており、高精度(99%)を与えます(99%)。

要約(オリジナル)

Lung cancer is one of the major causes of death worldwide, and Vietnam is not an exception. This disease is the second most common type of cancer globally and the second most common cause of death in Vietnam, just after liver cancer, with 23,797 fatal cases and 26,262 new cases, or 14.4% of the disease in 2020. Recently, with rising disease rates in Vietnam causing a huge public health burden, lung cancer continues to hold the top position in attention and care. Especially together with climate change, under a variety of types of pollution, deforestation, and modern lifestyles, lung cancer risks are on red alert, particularly in Vietnam. To understand more about the severe disease sources in Vietnam from a diversity of key factors, including environmental features and the current health state, with a particular emphasis on Vietnam’s distinct socioeconomic and ecological context, we utilize large datasets such as patient health records and environmental indicators containing necessary information, such as deforestation rate, green cover rate, air pollution, and lung cancer risks, that is collected from well-known governmental sharing websites. Then, we process and connect them and apply analytical methods (heatmap, information gain, p-value, spearman correlation) to determine causal correlations influencing lung cancer risks. Moreover, we deploy machine learning (ML) models (Decision Tree, Random Forest, Support Vector Machine, K-mean clustering) to discover cancer risk patterns. Our experimental results, leveraged by the aforementioned ML models to identify the disease patterns, are promising, particularly, the models as Random Forest, SVM, and PCA are working well on the datasets and give high accuracy (99%), however, the K means clustering has very low accuracy (10%) and does not fit the datasets.

arxiv情報

著者 Ngoc Hong Tran,Lan Kim Vien,Ngoc-Thao Thi Le
発行日 2025-04-11 15:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG パーマリンク