hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images

要約

タイトル: 乳がん組織学画像から遺伝子発現を予測するための効率的な深層学習アーキテクチャhist2RNA
要約:

– 乳がんにおける遺伝子発現は、免疫組織化学(IHC)による予測よりも再発のリスクや治療反応性の予測に改善をもたらす。
– 分子プロファイリングはER + がんに主に使用され、時間とコストがかかり、組織の破壊が必要とされる。
– 深層学習アルゴリズムは、デジタル組織学画像から形態学的パターンを効果的に抽出し、分子表現型を素早くかつ低コストで予測できる。
– 新しいアプローチ、hist2RNAが提案され、H&E染色全スライド画像から6つの商用分子プロファイリングテストから組み込まれた138種類の遺伝子の発現を予測することができる。
– hist2RNAの訓練フェーズでは、事前にトレーニングされたモデルから各患者の抽出特徴を集約し、The Cancer Genome Atlas(TCGA、n= 335)の註釈付きH&E画像を使用して、患者レベルで遺伝子発現を予測する。
– 保持されたテストセット(n= 160、患者間相関0.82、遺伝子間相関0.29)での遺伝子予測の成功を示し、既知のIHCおよび生存情報を持つ外部の組織マイクロアレイ(TMA)データセット(n= 498)で探索的な分析を行いました。
– モデルは、TMAデータセットで遺伝子発現とLuminal PAM50サブタイプ(Luminal A vs Luminal B)を予測し、全生存に対して予後的意義を持ち、標準的な臨床病理学的変数を組み込んだ多変量解析でも独立的な意義を示した(c-index=0.65, hazard ratio=1.85 (95% CI 1.30-2.68), p<5x10-3)。

要約(オリジナル)

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ cancer and is costly and tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n=160, corr=0.82 across patients, corr=0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n=498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index=0.56, hazard ratio=2.16 (95% CI 1.12-3.06), p<5x10-3), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index=0.65, hazard ratio=1.85 (95% CI 1.30-2.68), p<5x10-3).

arxiv情報

著者 Raktim Kumar Mondol,Ewan K. A. Millar,Peter H Graham,Lois Browne,Arcot Sowmya,Erik Meijering
発行日 2023-04-24 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク