要約
トランスクリプトームファンデーションモデルTFMは、大規模なシングルセル遺伝子発現データに関する自己監視学習によって多様な細胞機能を決定するトランスクリプトーム言語を解読するという大きな約束を保持し、最終的にヒト疾患の複雑なメカニズムを解明します。
ただし、現在のTFMは細胞を独立したサンプルとして扱い、細胞オントロジーグラフで利用できる細胞タイプ間の分類学的関係を無視します。
TFMプリトレーニング中にこのオントロジー情報を効果的に活用すると、TFMを下流のゼロショットおよび微調整タスクの汎用基礎モデルとして保存しながら、生物学的に意味のある遺伝子共発現パターンを改善できると主張します。
この目的のために、単一の細胞、細胞環境ガイドTFM sccelloを提示します。
細胞型コヒーレンス損失とオントロジーアライメント損失を導入します。これは、トレーニング前のマスクされた遺伝子発現予測損失とともに最小化されます。
新規損失コンポーネントは、細胞型固有の表現と、細胞オントロジーグラフからそれぞれ細胞型間の構造的関係を学習するためのSccelloをガイドします。
Open Biological and Biomedical Ontology Foundryから細胞オントロジーグラフにマッピングされたセルタイプのラベルを活用するCellxgeneデータベースから2,200万細胞のSCCELLOを事前に訓練しました。
当社のTFMは、目に見えない細胞の新規細胞タイプの識別、細胞型特異的マーカー遺伝子の予測、癌薬物反応を含む生物学的に重要なタスクに関する既存のTFMに対する競争的一般化と移動性パフォーマンスを示しています。
要約(オリジナル)
Transcriptome foundation models TFMs hold great promises of deciphering the transcriptomic language that dictate diverse cell functions by self-supervised learning on large-scale single-cell gene expression data, and ultimately unraveling the complex mechanisms of human diseases. However, current TFMs treat cells as independent samples and ignore the taxonomic relationships between cell types, which are available in cell ontology graphs. We argue that effectively leveraging this ontology information during the TFM pre-training can improve learning biologically meaningful gene co-expression patterns while preserving TFM as a general purpose foundation model for downstream zero-shot and fine-tuning tasks. To this end, we present single cell, Cell-ontology guided TFM scCello. We introduce cell-type coherence loss and ontology alignment loss, which are minimized along with the masked gene expression prediction loss during the pre-training. The novel loss component guide scCello to learn the cell-type-specific representation and the structural relation between cell types from the cell ontology graph, respectively. We pre-trained scCello on 22 million cells from CellxGene database leveraging their cell-type labels mapped to the cell ontology graph from Open Biological and Biomedical Ontology Foundry. Our TFM demonstrates competitive generalization and transferability performance over the existing TFMs on biologically important tasks including identifying novel cell types of unseen cells, prediction of cell-type-specific marker genes, and cancer drug responses.
arxiv情報
| 著者 | Xinyu Yuan,Zhihao Zhan,Zuobai Zhang,Manqi Zhou,Jianan Zhao,Boyu Han,Yue Li,Jian Tang |
| 発行日 | 2025-02-28 17:36:51+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google