scMEDAL for the interpretable analysis of single-cell transcriptomics data with batch effect visualization using a deep mixed effects autoencoder

要約

SCRNA-seqデータは、細胞の不均一性とデータ収集に関する新しい洞察を提供する可能性があります。
ただし、大きな課題は、技術的および生物学的バッチ効果から混乱を解くことです。
既存のバッチ補正アルゴリズムは、それらを定量化およびモデル化するのではなく、これらの効果を抑制および破棄します。
ここでは、2つの相補的自動エンコーダーネットワークを使用してバッチインヴァリアントおよびバッチ固有の効果を個別にモデル化するシングルセル混合エフェクトディープオートエンコーダー学習のフレームワークであるScmedalを提示します。
1つのネットワークは、バッチ不変の表現をキャプチャするために敵対的な学習を通じてトレーニングされ、ベイジアンオートエンコーダーはバッチ固有の表現を学習します。
包括的な評価条件(自閉症、白血病、心血管系など)、細胞タイプ、および技術的および生物学的効果にまたがる包括的な評価は、SCMEDALがバッチ特異的な変動をモデル化し、精度と解釈性を高める一方でバッチ効果を抑制することを示しています。
以前のアプローチとは異なり、フレームワークの固定およびランダム効果は、細胞レベルでのゲノマップ投影を介して異なるバッチで取得されたかのように細胞の式を予測し、生物学的(例えば診断)および技術(例えば、獲得)の影響を明らかにするなど、レトロスペクティブ分析を可能にします。
SCMEDALのバッチ依存とバッチ固有の潜在スペースを組み合わせることにより、疾患の状態、ドナーグループ、および細胞型をより正確に予測できるようになり、SCMEDALはデータ収集と細胞の不均一性をより深く洞察するための貴重なフレームワークにします。

要約(オリジナル)

scRNA-seq data has the potential to provide new insights into cellular heterogeneity and data acquisition; however, a major challenge is unraveling confounding from technical and biological batch effects. Existing batch correction algorithms suppress and discard these effects, rather than quantifying and modeling them. Here, we present scMEDAL, a framework for single-cell Mixed Effects Deep Autoencoder Learning, which separately models batch-invariant and batch-specific effects using two complementary autoencoder networks. One network is trained through adversarial learning to capture a batch-invariant representation, while a Bayesian autoencoder learns a batch-specific representation. Comprehensive evaluations spanning conditions (e.g., autism, leukemia, and cardiovascular), cell types, and technical and biological effects demonstrate that scMEDAL suppresses batch effects while modeling batch-specific variation, enhancing accuracy and interpretability. Unlike prior approaches, the framework’s fixed- and random-effects autoencoders enable retrospective analyses, including predicting a cell’s expression as if it had been acquired in a different batch via genomap projections at the cellular level, revealing the impact of biological (e.g., diagnosis) and technical (e.g., acquisition) effects. By combining scMEDAL’s batch-agnostic and batch-specific latent spaces, it enables more accurate predictions of disease status, donor group, and cell type, making scMEDAL a valuable framework for gaining deeper insight into data acquisition and cellular heterogeneity.

arxiv情報

著者 Aixa X. Andrade,Son Nguyen,Albert Montillo
発行日 2025-03-13 16:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN パーマリンク