CLCLSA: Cross-omics Linked embedding with Contrastive Learning and Self Attention for multi-omics integration with incomplete multi-omics data

要約

タイトル:CLCLSA:不完全なマルチオミックスデータのマルチオミックス統合のためのコントラスティブ学習とセルフアテンションを用いたクロスオミックスリンク埋め込み

要約:

– マルチオミックスデータの統合は、遺伝子データの理解においてますます重要になってきている。
– 疾患や表現型の総合的で詳細な理解をもたらすには、各オミックステクニックが提供する生物学的プロセスの限定された視点を統合する必要がある。
– しかし、マルチオミックスデータの統合を実行する際の障壁の1つは、機器感度やコストのために対応していないマルチオミックスデータが存在することである。
– この論文では、不完全なデータを使ったマルチオミックス統合のためのディープラーニング手法を提案する。
– 完全なマルチオミックスデータを教師データとして用い、クロスオミックスオートエンコーダーを用いて異なるタイプの生物学的データにわたる特徴表現を学習する。
– 潜在的な特徴を連結する前に、マルチオミックスコントラスティブ学習を利用して、異なるタイプのオミックス間の相互情報量を最大化する。
– また、特徴レベルのセルフアテンションとオミックスレベルのセルフアテンションを用いて、マルチオミックスデータの統合に対して最も情報を提供する特徴を動的に特定する。
– 4つの公共マルチオミックスデータセットで広範な実験が行われ、不完全なマルチオミックスデータを用いたマルチオミックスデータ分類において、提案されたCLCLSAが最先端の手法を上回る結果を示した。

要約(オリジナル)

Integration of heterogeneous and high-dimensional multi-omics data is becoming increasingly important in understanding genetic data. Each omics technique only provides a limited view of the underlying biological process and integrating heterogeneous omics layers simultaneously would lead to a more comprehensive and detailed understanding of diseases and phenotypes. However, one obstacle faced when performing multi-omics data integration is the existence of unpaired multi-omics data due to instrument sensitivity and cost. Studies may fail if certain aspects of the subjects are missing or incomplete. In this paper, we propose a deep learning method for multi-omics integration with incomplete data by Cross-omics Linked unified embedding with Contrastive Learning and Self Attention (CLCLSA). Utilizing complete multi-omics data as supervision, the model employs cross-omics autoencoders to learn the feature representation across different types of biological data. The multi-omics contrastive learning, which is used to maximize the mutual information between different types of omics, is employed before latent feature concatenation. In addition, the feature-level self-attention and omics-level self-attention are employed to dynamically identify the most informative features for multi-omics data integration. Extensive experiments were conducted on four public multi-omics datasets. The experimental results indicated that the proposed CLCLSA outperformed the state-of-the-art approaches for multi-omics data classification using incomplete multi-omics data.

arxiv情報

著者 Chen Zhao,Anqi Liu,Xiao Zhang,Xuewei Cao,Zhengming Ding,Qiuying Sha,Hui Shen,Hong-Wen Deng,Weihua Zhou
発行日 2023-04-12 00:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク