Cell-ontology guided transcriptome foundation model

要約

トランスクリプトーム基盤モデル TFM は、大規模な単一細胞遺伝子発現データの自己教師あり学習によって、多様な細胞機能を決定するトランスクリプトーム言語を解読し、最終的にはヒト疾患の複雑なメカニズムを解明するという大きな期待を抱いています。
ただし、現在の TFM は細胞を独立したサンプルとして扱い、細胞オントロジー グラフで利用できる細胞型間の分類学的関係を無視します。
私たちは、TFM の事前トレーニング中にこのオントロジー情報を効果的に活用することで、下流のゼロショットおよび微調整タスクのための汎用基礎モデルとして TFM を維持しながら、生物学的に意味のある遺伝子共発現パターンの学習を向上させることができると主張します。
この目的を達成するために、\textbf{s}ingle \textbf{c}ell、\textbf{Cell}-\textbf{o}ntology ガイド付き TFM scCello を提案します。
セルタイプのコヒーレンス損失とオントロジーアライメント損失を導入します。これらは、事前トレーニング中のマスクされた遺伝子発現予測損失とともに最小限に抑えられます。
新しい損失コンポーネントは、scCello がセル オントロジー グラフからセル タイプ固有の表現とセル タイプ間の構造的関係をそれぞれ学習するようにガイドします。
Open Biological and Biomedical Ontology Foundry の細胞オントロジー グラフにマッピングされた細胞タイプのラベルを活用して、CellxGene データベースの 2,200 万個の細胞に対して scCello を事前トレーニングしました。
当社の TFM は、まだ見られていない細胞の新規細胞型の同定、細胞型特異的マーカー遺伝子の予測、抗がん剤反応などの生物学的に重要なタスクにおいて、既存の TFM と比較して競合する汎化性と転移性のパフォーマンスを実証します。

要約(オリジナル)

Transcriptome foundation models TFMs hold great promises of deciphering the transcriptomic language that dictate diverse cell functions by self-supervised learning on large-scale single-cell gene expression data, and ultimately unraveling the complex mechanisms of human diseases. However, current TFMs treat cells as independent samples and ignore the taxonomic relationships between cell types, which are available in cell ontology graphs. We argue that effectively leveraging this ontology information during the TFM pre-training can improve learning biologically meaningful gene co-expression patterns while preserving TFM as a general purpose foundation model for downstream zero-shot and fine-tuning tasks. To this end, we present \textbf{s}ingle \textbf{c}ell, \textbf{Cell}-\textbf{o}ntology guided TFM scCello. We introduce cell-type coherence loss and ontology alignment loss, which are minimized along with the masked gene expression prediction loss during the pre-training. The novel loss component guide scCello to learn the cell-type-specific representation and the structural relation between cell types from the cell ontology graph, respectively. We pre-trained scCello on 22 million cells from CellxGene database leveraging their cell-type labels mapped to the cell ontology graph from Open Biological and Biomedical Ontology Foundry. Our TFM demonstrates competitive generalization and transferability performance over the existing TFMs on biologically important tasks including identifying novel cell types of unseen cells, prediction of cell-type-specific marker genes, and cancer drug responses.

arxiv情報

著者 Xinyu Yuan,Zhihao Zhan,Zuobai Zhang,Manqi Zhou,Jianan Zhao,Boyu Han,Yue Li,Jian Tang
発行日 2024-08-22 13:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク