要約
シングルセルデータの統合は、細胞の包括的な分子ビューを提供することができ、不要な技術的または生物学的変異を除去し、異種シングルセルデータセットを統合するために、多くのアルゴリズムが開発されてきた。広く利用されているにもかかわらず、既存の方法はいくつかの基本的な限界に悩まされている。特に、2つの高次元シングルセルデータセットがアライメント可能かどうか(したがってアライメントされるべきかどうか)についての厳密な統計的検定がない。さらに、一般的な手法では、アライメント中にデータが大きく歪む可能性があり、アライメントされたデータや下流の解析の解釈を困難にしている。これらの制限を克服するために、我々はスペクトル多様体アライメントと推論(SMAI)フレームワークを提示する。このフレームワークは、原理的で解釈可能なアライメント可能性の検定と、同じ種類の特徴を持つ単一細胞データの構造保存的統合を可能にする。SMAIは、データセット間の整合性を頑健に評価し、誤解を招く推論を避けるための統計的検定を提供し、高次元統計理論によって正当化される。多様な実データセットとシミュレーションベンチマークデータセットにおいて、SMAIは一般的に使用されているアライメント手法を凌駕している。さらに、SMAIは、差次的に発現する遺伝子の同定や、単一細胞の空間トランスクリプトミクスのインピュテーションなど、様々な下流解析を改善し、生物学的洞察をさらに深めることを示す。また、SMAIの解釈可能性により、シングルセルデータにおける技術的交絡因子の定量化とその原因の深い理解が可能となる。
要約(オリジナル)
Single-cell data integration can provide a comprehensive molecular view of cells, and many algorithms have been developed to remove unwanted technical or biological variations and integrate heterogeneous single-cell datasets. Despite their wide usage, existing methods suffer from several fundamental limitations. In particular, we lack a rigorous statistical test for whether two high-dimensional single-cell datasets are alignable (and therefore should even be aligned). Moreover, popular methods can substantially distort the data during alignment, making the aligned data and downstream analysis difficult to interpret. To overcome these limitations, we present a spectral manifold alignment and inference (SMAI) framework, which enables principled and interpretable alignability testing and structure-preserving integration of single-cell data with the same type of features. SMAI provides a statistical test to robustly assess the alignability between datasets to avoid misleading inference, and is justified by high-dimensional statistical theory. On a diverse range of real and simulated benchmark datasets, it outperforms commonly used alignment methods. Moreover, we show that SMAI improves various downstream analyses such as identification of differentially expressed genes and imputation of single-cell spatial transcriptomics, providing further biological insights. SMAI’s interpretability also enables quantification and a deeper understanding of the sources of technical confounders in single-cell data.
arxiv情報
著者 | Rong Ma,Eric D. Sun,David Donoho,James Zou |
発行日 | 2024-02-29 22:35:45+00:00 |
arxivサイト | arxiv_id(pdf) |