hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images

要約

【タイトル】
乳がん組織学画像から遺伝子発現を予測するための効率的なディープラーニングアーキテクチャー:hist2RNA

【要約】
– 乳がんでは、免疫組織化学(IHC)ルーチンよりも再発リスクや治療反応能の改善予測に有用な遺伝子発現型を利用できる。
– しかし、診療現場では、ER+がんに対して分子プロファイリングが主に使用され、高コストで組織破壊的であり、専用プラットフォームが必要で、数週間かかる。
– ディープラーニングアルゴリズムは、デジタル病理学画像から形態学的パターンを抽出して、分子表現型を迅速かつ低コストで予測することができる。
– 本研究では、バルクRNA配列技術から着想を得た、hist2RNAと呼ばれる新しい計算効率の高いアプローチを提案し、ヘマトキシリンとエオシン染色全面スライド画像からLuminal PAM50サブタイプを含む138遺伝子の発現を予測する。
– 訓練フェーズでは、事前学習済みモデルから各患者の抽出特徴を集約し、TCGA(n = 335)の注釈付きH&E画像を使用して患者レベルで遺伝子発現を予測する。
– 試験セット(n = 160)での遺伝子予測を示し(患者間相関係数は0.82、遺伝子間相関係数は0.29)、外部の組織マイクロアレイ(TMA)データセット(n = 498)で探索的分析を実施する。
– 当モデルは、TMAデータセットで遺伝子発現とLuminal PAM50サブタイプ(Luminal A vs Luminal B)を予測し、単変量解析で全生存率に予後的意義を持ち(c-index = 0.56、ハザード比 = 2.16(95% CI 1.12-3.06)、p < 5 x 10-3)、標準的な臨床病理学的変数を組み込む多変量解析でも独立した意義を持つ(c-index = 0.65、ハザード比 = 1.85(95% CI 1.30-2.68)、p < 5 x 10-3)。

要約(オリジナル)

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ cancer and is costly and tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n = 160, corr = 0.82 across patients, corr = 0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n = 498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index = 0.56, hazard ratio = 2.16 (95% CI 1.12-3.06), p < 5 x 10-3), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index = 0.65, hazard ratio = 1.85 (95% CI 1.30-2.68), p < 5 x 10-3).

arxiv情報

著者 Raktim Kumar Mondol,Ewan K. A. Millar,Peter H Graham,Lois Browne,Arcot Sowmya,Erik Meijering
発行日 2023-05-02 16:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク