scDiffusion: conditional generation of high-quality single-cell data using diffusion model

要約

単一細胞 RNA シーケンス (scRNA-seq) データは、発生や疾患の生物学を単一細胞レベルで研究するために重要です。
データの特性をより深く理解し、下流のメソッドをテストするための制御されたベンチマーク データを構築し、十分な実際のデータを収集することが困難な場合にデータを増強するために、計算によって合成 scRNA-seq データを生成する生成モデルが提案されています。
ただし、現在のモデルで生成されたデータは、特に制御された条件でデータを生成する必要がある場合には、まだあまり現実的ではありません。
その一方で、Diffusion モデルはコンピューター ビジョンで高忠実度のデータを生成する能力を示しており、scRNA-seq 生成の新たな機会を提供しています。
この研究では、制御された条件で高品質の scRNA-seq データを生成するための拡散ベースのモデルである scDiffusion を開発しました。
拡散プロセスを同時にガイドする複数の分類器を設計し、scDiffusion が複数の条件の組み合わせの下でデータを生成できるようにしました。
また、勾配補間と呼ばれる新しい制御戦略も提案しました。
この戦略により、モデルは特定の細胞状態から細胞発生の連続的な軌跡を生成できます。
実験では、scDiffusion が実際の scRNA-seq データによく似た単一細胞遺伝子発現データを生成できることが示され、複数の指標において最先端のモデルを上回っています。
また、scDiffusion は、希少細胞タイプを含む特定の細胞タイプに関するデータを条件付きで生成できます。
さらに、scDiffusion の複数条件生成を使用して、トレーニング データから外れた細胞タイプを生成することもできました。
勾配補間戦略を活用して、マウス胚細胞の連続的な発生軌跡を生成しました。
これらの実験は、scDiffusion が実際の scRNA-seq データを増強するための強力なツールであり、細胞運命研究への洞察を提供できることを示しています。

要約(オリジナル)

Single-cell RNA sequencing (scRNA-seq) data are important for studying the biology of development or diseases at single-cell level. To better understand the properties of the data, to build controlled benchmark data for testing downstream methods, and to augment data when collecting sufficient real data is challenging, generative models have been proposed to computationally generate synthetic scRNA-seq data. However, the data generated with current models are not very realistic yet, especially when we need to generate data with controlled conditions. In the meantime, the Diffusion models have shown their power in generating data in computer vision at high fidelity, providing a new opportunity for scRNA-seq generation. In this study, we developed scDiffusion, a diffusion-based model to generate high-quality scRNA-seq data with controlled conditions. We designed multiple classifiers to guide the diffusion process simultaneously, enabling scDiffusion to generate data under multiple condition combinations. We also proposed a new control strategy called Gradient Interpolation. This strategy allows the model to generate continuous trajectories of cell development from a given cell state. Experiments showed that scDiffusion can generate single-cell gene expression data closely resembling real scRNA-seq data, surpassing state-of-the-art models in multiple metrics. Also, scDiffusion can conditionally produce data on specific cell types including rare cell types. Furthermore, we could use the multiple-condition generation of scDiffusion to generate cell type that was out of the training data. Leveraging the Gradient Interpolation strategy, we generated a continuous developmental trajectory of mouse embryonic cells. These experiments demonstrate that scDiffusion is a powerful tool for augmenting the real scRNA-seq data and can provide insights into cell fate research.

arxiv情報

著者 Erpai Luo,Minsheng Hao,Lei Wei,Xuegong Zhang
発行日 2024-01-08 15:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN, q-bio.QM パーマリンク