DEDUCE: Multi-head attention decoupled contrastive learning to discover cancer subtypes based on multi-omics data

要約

がんは不均一性が高く、臨床的特徴が高いため、異なるがんのサブタイプ間ではマルチオミクスデータと臨床的特徴に大きな違いがあります。
したがって、がんのサブタイプの同定と発見は、がんの診断、治療、予後にとって非常に重要です。
この研究では、癌のサブタイプの同定と特徴付けのために癌のマルチオミクスデータを分析するための教師なし対比学習のための注意メカニズムに基づく一般化フレームワークを提案しました。
このフレームワークには、対称的教師なしマルチヘッド アテンション エンコーダーが含まれており、マルチオミクス データの文脈上の特徴と長距離依存性を深く抽出して、マルチオミクス データのノイズの影響を軽減できます。
重要なのは、提案されたフレームワークには、マルチオミクスデータの特徴とクラスタリングを学習し、がんのサブタイプを識別するためのマルチヘッドアテンションメカニズムに基づく分離対比学習モデル(DEDUCE)が含まれていることです。
この方法では、マルチオミクス データの特徴空間とサンプル空間のサンプル間の類似性を計算することにより、サブタイプをクラスター化します。
基本的な考え方は、マルチオミクスデータの特徴のさまざまな属性を分離し、それらを対照的な用語として学習することです。
対照的な損失関数を構築して、正の例と負の例の間の差を測定し、この差を最小限に抑えることで、モデルがより適切な特徴表現を学習できるようにします。
DEDUCE モデルは、シミュレートされたマルチオミクス データセット、単細胞マルチオミクス データセット、がんマルチオミクス データセットに対して大規模実験を実施し、その結果は 10 個のディープ ラーニング モデルよりも優れています。
最後に、我々は DEDUCE モデルを使用して、AML の 6 つの癌サブタイプを明らかにしました。
GOの機能強化、サブタイプ特異的な生物学的機能、AMLのGSEAを解析することで、

要約(オリジナル)

Due to the high heterogeneity and clinical characteristics of cancer, there are significant differences in multi-omics data and clinical features among subtypes of different cancers. Therefore, the identification and discovery of cancer subtypes are crucial for the diagnosis, treatment, and prognosis of cancer. In this study, we proposed a generalization framework based on attention mechanisms for unsupervised contrastive learning to analyze cancer multi-omics data for the identification and characterization of cancer subtypes. The framework contains a symmetric unsupervised multi-head attention encoder, which can deeply extract contextual features and long-range dependencies of multi-omics data, reducing the impact of noise in multi-omics data. Importantly, the proposed framework includes a decoupled contrastive learning model (DEDUCE) based on a multi-head attention mechanism to learn multi-omics data features and clustering and identify cancer subtypes. This method clusters subtypes by calculating the similarity between samples in the feature space and sample space of multi-omics data. The basic idea is to decouple different attributes of multi-omics data features and learn them as contrasting terms. Construct a contrastive loss function to measure the difference between positive examples and negative examples, and minimize this difference, thereby encouraging the model to learn better feature representation. The DEDUCE model conducts large-scale experiments on simulated multi-omics data sets, single-cell multi-omics data sets and cancer multi-omics data sets, and the results are better than 10 deep learning models. Finally, we used the DEDUCE model to reveal six cancer subtypes of AML. By analyzing GO functional enrichment, subtype-specific biological functions and GSEA of AML,

arxiv情報

著者 Liangrui Pan,Dazhen Liu,Yutao Dou,Lian Wang,Zhichao Feng,Pengfei Rong,Liwen Xu,Shaoliang Peng
発行日 2023-11-06 13:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク