Is your data alignable? Principled and interpretable alignability testing and integration of single-cell data

要約

シングルセルデータの統合は、細胞の包括的な分子ビューを提供することができ、不要な技術的または生物学的変異を除去し、異種シングルセルデータセットを統合するために、多くのアルゴリズムが開発されてきた。広く利用されているにもかかわらず、既存の方法はいくつかの基本的な限界に悩まされている。特に、2つの高次元シングルセルデータセットがアライメント可能かどうか(したがってアライメントされるべきかどうか)についての厳密な統計的検定がない。さらに、一般的な手法では、アライメント中にデータが大きく歪む可能性があり、アライメントされたデータや下流の解析の解釈を困難にしている。これらの制限を克服するために、我々は、原理的で解釈可能なアライメント可能性のテストと単一細胞データの構造保存統合を可能にする、スペクトル多様体アライメントと推論(SMAI)フレームワークを提示する。SMAIは、データセット間のアライメント可能性を頑健に判定する統計的検定を提供し、誤解を招く推論を回避するもので、高次元統計理論によって正当化される。様々な実データセットとシミュレーションベンチマークデータセットにおいて、SMAIは一般的に使用されているアライメント手法を凌駕している。さらに、SMAIは、差次的に発現する遺伝子の同定や、単一細胞の空間トランスクリプトミクスのインピュテーションなど、様々な下流解析を改善し、生物学的洞察をさらに深めることを示す。また、SMAIの解釈可能性により、シングルセルデータにおける技術的交絡因子の定量化とその原因の深い理解が可能となる。

要約(オリジナル)

Single-cell data integration can provide a comprehensive molecular view of cells, and many algorithms have been developed to remove unwanted technical or biological variations and integrate heterogeneous single-cell datasets. Despite their wide usage, existing methods suffer from several fundamental limitations. In particular, we lack a rigorous statistical test for whether two high-dimensional single-cell datasets are alignable (and therefore should even be aligned). Moreover, popular methods can substantially distort the data during alignment, making the aligned data and downstream analysis difficult to interpret. To overcome these limitations, we present a spectral manifold alignment and inference (SMAI) framework, which enables principled and interpretable alignability testing and structure-preserving integration of single-cell data. SMAI provides a statistical test to robustly determine the alignability between datasets to avoid misleading inference, and is justified by high-dimensional statistical theory. On a diverse range of real and simulated benchmark datasets, it outperforms commonly used alignment methods. Moreover, we show that SMAI improves various downstream analyses such as identification of differentially expressed genes and imputation of single-cell spatial transcriptomics, providing further biological insights. SMAI’s interpretability also enables quantification and a deeper understanding of the sources of technical confounders in single-cell data.

arxiv情報

著者 Rong Ma,Eric D. Sun,David Donoho,James Zou
発行日 2023-08-03 16:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, q-bio.GN, q-bio.QM, stat.AP, stat.ML パーマリンク