Single-cell Curriculum Learning-based Deep Graph Embedding Clustering

要約

単一細胞 RNA シーケンス (scRNA-seq) 技術の急速な進歩により、細胞レベルの組織の不均一性の調査が可能になりました。
セルのアノテーションは、scRNA-seq データの広範な下流解析に大きく貢献します。
しかし、生物学的推論のための scRNA-seq の解析には、かなりの量と高頻度のドロップアウト イベントを特徴とする複雑かつ不確定なデータ分布があるため、課題が生じています。
さらに、トレーニング サンプルの品質は大きく異なり、一般的な scRNA-seq データ クラスタリング ソリューション GNN のパフォーマンスは、次の 2 種類の低品質トレーニング ノードによって悪影響を受ける可能性があります。1) 境界上のノード。
2) グラフに追加情報をほとんど提供しないノード。
これらの問題に対処するために、単一セル カリキュラム学習ベースのディープ グラフ埋め込みクラスタリング (scCLG) を提案します。
我々はまず、セル間のトポロジー表現を学習するために、セルグラフのトポロジー再構築損失、ゼロインフレートネガティブ二項(ZINB)損失、クラスタリング損失を含む3つの最適化目標を組み合わせた多基準チェビシェフグラフ畳み込みオートエンコーダ(ChebAE)を提案します。

一方、選択的トレーニング戦略を採用して、ノードの特徴とエントロピーに基づいて GNN をトレーニングし、難易度スコアに基づいて困難なノードを枝刈りして高品質のグラフを維持します。
さまざまな遺伝子発現データセットに関する実験結果は、私たちのモデルが最先端の方法よりも優れていることを示しています。
scCLG のコードは https://github.com/LFD-byte/scCLG で公開されます。

要約(オリジナル)

The swift advancement of single-cell RNA sequencing (scRNA-seq) technologies enables the investigation of cellular-level tissue heterogeneity. Cell annotation significantly contributes to the extensive downstream analysis of scRNA-seq data. However, The analysis of scRNA-seq for biological inference presents challenges owing to its intricate and indeterminate data distribution, characterized by a substantial volume and a high frequency of dropout events. Furthermore, the quality of training samples varies greatly, and the performance of the popular scRNA-seq data clustering solution GNN could be harmed by two types of low-quality training nodes: 1) nodes on the boundary; 2) nodes that contribute little additional information to the graph. To address these problems, we propose a single-cell curriculum learning-based deep graph embedding clustering (scCLG). We first propose a Chebyshev graph convolutional autoencoder with multi-criteria (ChebAE) that combines three optimization objectives, including topology reconstruction loss of cell graphs, zero-inflated negative binomial (ZINB) loss, and clustering loss, to learn cell-cell topology representation. Meanwhile, we employ a selective training strategy to train GNN based on the features and entropy of nodes and prune the difficult nodes based on the difficulty scores to keep the high-quality graph. Empirical results on a variety of gene expression datasets show that our model outperforms state-of-the-art methods. The code of scCLG will be made publicly available at https://github.com/LFD-byte/scCLG.

arxiv情報

著者 Huifa Li,Jie Fu,Xinpeng Ling,Zhiyu Sun,Kuncan Wang,Zhili Chen
発行日 2024-11-27 04:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク