Subject clustering by IF-PCA and several recent methods


被験者のクラスタリング (つまり、測定された特徴を使用して、患者や細胞などの被験者を複数のグループにクラスター化すること) は、非常に興味深い問題です。
2 つの興味深い質問は、(a) UDL と他のアプローチの長所をどのように組み合わせるか、および (b) これらのアプローチを相互に比較する方法です。
私たちは、一般的な UDL アプローチである変分オートエンコーダー (VAE) と、影響力のある特徴 PCA (IF-PCA) の最近のアイデアを組み合わせ、サブジェクト クラスタリングの新しい方法として IF-VAE を提案します。
私たちは IF-VAE を研究し、10 ドルの遺伝子マイクロアレイ データセットと 8 ドルの単一細胞 RNA-seq データセットについて他のいくつかの方法 (IF-PCA、VAE、Seurat、SC3 を含む) と比較します。
IF-VAE は VAE よりも大幅に改善されていますが、依然として IF-PCA よりもパフォーマンスが低いことがわかります。
また、IF-PCA は非常に競争力があり、8 ドルの単一セル データ セットよりも Seurat や SC3 よりわずかに優れていることもわかりました。
IF-PCA は概念的にシンプルであり、繊細な分析が可能です。
比較すると、スーラと SC3 はより複雑で理論的に解析が困難です (これらの理由により、それらの最適性は依然として不明瞭です)。


Subject clustering (i.e., the use of measured features to cluster subjects, such as patients or cells, into multiple groups) is a problem of great interest. In recent years, many approaches were proposed, among which unsupervised deep learning (UDL) has received a great deal of attention. Two interesting questions are (a) how to combine the strengths of UDL and other approaches, and (b) how these approaches compare to one other. We combine Variational Auto-Encoder (VAE), a popular UDL approach, with the recent idea of Influential Feature PCA (IF-PCA), and propose IF-VAE as a new method for subject clustering. We study IF-VAE and compare it with several other methods (including IF-PCA, VAE, Seurat, and SC3) on $10$ gene microarray data sets and $8$ single-cell RNA-seq data sets. We find that IF-VAE significantly improves over VAE, but still underperforms IF-PCA. We also find that IF-PCA is quite competitive, which slightly outperforms Seurat and SC3 over the $8$ single-cell data sets. IF-PCA is conceptually simple and permits delicate analysis. We demonstrate that IF-PCA is capable of achieving the phase transition in a Rare/Weak model. Comparatively, Seurat and SC3 are more complex and theoretically difficult to analyze (for these reasons, their optimality remains unclear).


著者 Dieyi Chen,Jiashun Jin,Zheng Tracy Ke
発行日 2023-06-08 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, math.ST, stat.AP, stat.ME, stat.TH パーマリンク