Multi-View Variational Autoencoder for Missing Value Imputation in Untargeted Metabolomics

要約

背景: データの欠落は質量分析ベースのメタボロミクスにおける一般的な課題であり、偏った不完全な分析につながる可能性があります。
全ゲノム配列決定 (WGS) データとメタボロミクス データの統合は、メタボロミクス研究におけるデータ補完の精度を高めるための有望なアプローチとして浮上しています。
方法: この研究では、WGS データと参照代謝物からの情報を活用して未知の代謝物を推定する新しい方法を提案します。
私たちのアプローチでは、マルチビュー変分オートエンコーダーを利用して、特徴抽出と欠損メタボロミクスデータの代入のために、負担スコア、多遺伝リスクスコア (PGS)、および連鎖不均衡 (LD) で枝刈りされた一塩基多型 (SNP) を共同でモデル化します。
両方のオミクスデータの潜在表現を学習することにより、私たちの方法は、ゲノム情報に基づいて欠落しているメタボロミクス値を効果的に代入できます。
結果: 欠損値を含む経験的メタボロミクス データセットに対するこの手法のパフォーマンスを評価し、従来の代入手法と比較してその優位性を実証します。
35 のテンプレート代謝物由来の負荷スコア、PGS および LD プルーニング SNP を使用して、提案された方法は代謝物の 71.55% で R^2 スコア > 0.01 を達成しました。
結論: メタボロミクス補完における WGS データの統合は、データの完全性を向上させるだけでなく、下流の分析も強化し、代謝経路と疾患の関連性のより包括的かつ正確な調査への道を開きます。
私たちの調査結果は、メタボロミクスデータ補完に WGS データを利用する潜在的な利点についての貴重な洞察を提供し、精密医療研究においてマルチモーダルなデータ統合を活用することの重要性を強調しています。

要約(オリジナル)

Background: Missing data is a common challenge in mass spectrometry-based metabolomics, which can lead to biased and incomplete analyses. The integration of whole-genome sequencing (WGS) data with metabolomics data has emerged as a promising approach to enhance the accuracy of data imputation in metabolomics studies. Method: In this study, we propose a novel method that leverages the information from WGS data and reference metabolites to impute unknown metabolites. Our approach utilizes a multi-view variational autoencoder to jointly model the burden score, polygenetic risk score (PGS), and linkage disequilibrium (LD) pruned single nucleotide polymorphisms (SNPs) for feature extraction and missing metabolomics data imputation. By learning the latent representations of both omics data, our method can effectively impute missing metabolomics values based on genomic information. Results: We evaluate the performance of our method on empirical metabolomics datasets with missing values and demonstrate its superiority compared to conventional imputation techniques. Using 35 template metabolites derived burden scores, PGS and LD-pruned SNPs, the proposed methods achieved R^2-scores > 0.01 for 71.55% of metabolites. Conclusion: The integration of WGS data in metabolomics imputation not only improves data completeness but also enhances downstream analyses, paving the way for more comprehensive and accurate investigations of metabolic pathways and disease associations. Our findings offer valuable insights into the potential benefits of utilizing WGS data for metabolomics data imputation and underscore the importance of leveraging multi-modal data integration in precision medicine research.

arxiv情報

著者 Chen Zhao,Kuan-Jui Su,Chong Wu,Xuewei Cao,Qiuying Sha,Wu Li,Zhe Luo,Tian Qin,Chuan Qiu,Lan Juan Zhao,Anqi Liu,Lindong Jiang,Xiao Zhang,Hui Shen,Weihua Zhou,Hong-Wen Deng
発行日 2024-03-12 15:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, q-bio.GN, stat.AP パーマリンク