Biomarker based Cancer Classification using an Ensemble with Pre-trained Models

要約

特定の種類のがん、つまり膵臓がんは、早期段階での検出が困難です。
これにより、がんを効率的に特定するためにバイオマーカーとがんとの因果関係を発見することの重要性が高まりました。
リキッドバイオプシーは、非侵襲的方法による特定のバイオマーカーの検出とモニタリングを可能にすることで、医療介入の精度と有効性を高め、個別化された医療への移行を提唱します。
ランダム フォレスト、SVM などのいくつかの機械学習アルゴリズムが分類に利用されていますが、ハイパーパラメータ調整を行う必要があるため、非効率が生じています。
当社では、がんの分類にメタトレーニングされた Hyperfast モデルを活用し、最高の AUC 0.9929 を達成すると同時に、いくつかのバイナリ分類タスク (例: 乳房浸潤がん、BRCA と非 BRCA) において、他の ML アルゴリズムと比較して非常に不均衡なデータセットに対して堅牢性を達成しています。

また、マルチクラス分類タスク用に、事前トレーニング済みの Hyperfast モデル、XGBoost、および LightGBM を組み合わせた新しいアンサンブル モデルを提案します。これにより、500 個の PCA 特徴を使用するだけで、精度の増分増加 (0.9464) が達成されます。
これは、同様の結果を得るために 2,000 以上の特徴を使用した以前の研究とは区別できます。

要約(オリジナル)

Certain cancer types, namely pancreatic cancer is difficult to detect at an early stage; sparking the importance of discovering the causal relationship between biomarkers and cancer to identify cancer efficiently. By allowing for the detection and monitoring of specific biomarkers through a non-invasive method, liquid biopsies enhance the precision and efficacy of medical interventions, advocating the move towards personalized healthcare. Several machine learning algorithms such as Random Forest, SVM are utilized for classification, yet causing inefficiency due to the need for conducting hyperparameter tuning. We leverage a meta-trained Hyperfast model for classifying cancer, accomplishing the highest AUC of 0.9929 and simultaneously achieving robustness especially on highly imbalanced datasets compared to other ML algorithms in several binary classification tasks (e.g. breast invasive carcinoma; BRCA vs. non-BRCA). We also propose a novel ensemble model combining pre-trained Hyperfast model, XGBoost, and LightGBM for multi-class classification tasks, achieving an incremental increase in accuracy (0.9464) while merely using 500 PCA features; distinguishable from previous studies where they used more than 2,000 features for similar results.

arxiv情報

著者 Chongmin Lee,Jihie Kim
発行日 2024-06-14 14:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク