Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen

要約

シングルセルRNA-seqデータの生成的モデリングは、軌跡推論、バッチ効果の除去、現実的な細胞データのシミュレーションなどのタスクに不可欠である。しかし、ノイズから合成単一細胞をシミュレートする最近のディープジェネレーティブモデルは、単一細胞データの離散的性質を見落とし、事前に処理された連続的な遺伝子発現近似値で動作するため、その有効性が制限され、ロバストなノイズモデルの組み込みを妨げている。さらに、細胞データの制御可能なマルチモーダルおよびマルチラベル生成のような側面は、未解明のままである。本研究では、フローベースの条件付き生成モデルであるCellFlow for Generation (CFGen)を導入し、シングルセルデータ固有の離散性を保持する。CFGenは、全ゲノムマルチモーダルシングルセルデータを確実に生成し、重要な生物学的データ特性の回復を改善すると同時に、希少細胞タイプの増強やバッチ補正などの関連する生成タスクに取り組む。また、Flow Matchingを用いた構成データ生成のための新しいフレームワークも紹介する。多様な生物学的データセットと設定におけるCFGenを紹介することで、計算生物学と深層生成モデルの分野におけるCFGenの価値を実証する。

要約(オリジナル)

Generative modeling of single-cell RNA-seq data is crucial for tasks like trajectory inference, batch effect removal, and simulation of realistic cellular data. However, recent deep generative models simulating synthetic single cells from noise operate on pre-processed continuous gene expression approximations, overlooking the discrete nature of single-cell data, which limits their effectiveness and hinders the incorporation of robust noise models. Additionally, aspects like controllable multi-modal and multi-label generation of cellular data remain underexplored. This work introduces CellFlow for Generation (CFGen), a flow-based conditional generative model that preserves the inherent discreteness of single-cell data. CFGen generates whole-genome multi-modal single-cell data reliably, improving the recovery of crucial biological data characteristics while tackling relevant generative tasks such as rare cell type augmentation and batch correction. We also introduce a novel framework for compositional data generation using Flow Matching. By showcasing CFGen on a diverse set of biological datasets and settings, we provide evidence of its value to the fields of computational biology and deep generative models.

arxiv情報

著者 Alessandro Palma,Till Richter,Hanyi Zhang,Manuel Lubetzki,Alexander Tong,Andrea Dittadi,Fabian Theis
発行日 2025-03-03 14:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.GN, q-bio.QM パーマリンク