A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

要約

大規模な言語モデルは、複雑な自然言語命令の解釈に優れており、幅広いタスクを実行できます。
ライフサイエンスでは、単一細胞 RNA シーケンス (scRNA-seq) データは「細胞生物学の言語」として機能し、複雑な遺伝子発現パターンを単一細胞レベルで捉えます。
しかし、従来のツールを介してこの「言語」を操作することは非効率的で直感的でないことが多く、研究者にとって課題となっています。
これらの制限に対処するために、より直接的かつ柔軟な単一細胞分析のための媒体として自然言語を活用するマルチモーダル AI コパイロットである InstructCell を紹介します。
私たちは、テキストベースの指示と、さまざまな組織や種からの scRNA-seq プロファイルを組み合わせた、包括的なマルチモーダルな指示データセットを構築します。
これに基づいて、両方のモダリティを同時に解釈して処理できるマルチモーダル セル言語アーキテクチャを開発します。
InstructCell を使用すると、研究者は簡単な自然言語コマンドを使用して、細胞型のアノテーション、条件付き擬似細胞生成、薬剤感受性予測などの重要なタスクを実行できます。
広範な評価により、InstructCell がさまざまな実験条件に適応しながら、既存の単一セル基盤モデルのパフォーマンスを一貫して満たすか上回ることが実証されています。
さらに重要なことは、InstructCell は、複雑な単一細胞データを探索するためのアクセスしやすく直感的なツールを提供し、技術的な障壁を下げ、より深い生物学的洞察を可能にすることです。

要約(オリジナル)

Large language models excel at interpreting complex natural language instructions, enabling them to perform a wide range of tasks. In the life sciences, single-cell RNA sequencing (scRNA-seq) data serves as the ‘language of cellular biology’, capturing intricate gene expression patterns at the single-cell level. However, interacting with this ‘language’ through conventional tools is often inefficient and unintuitive, posing challenges for researchers. To address these limitations, we present InstructCell, a multi-modal AI copilot that leverages natural language as a medium for more direct and flexible single-cell analysis. We construct a comprehensive multi-modal instruction dataset that pairs text-based instructions with scRNA-seq profiles from diverse tissues and species. Building on this, we develop a multi-modal cell language architecture capable of simultaneously interpreting and processing both modalities. InstructCell empowers researchers to accomplish critical tasks-such as cell type annotation, conditional pseudo-cell generation, and drug sensitivity prediction-using straightforward natural language commands. Extensive evaluations demonstrate that InstructCell consistently meets or exceeds the performance of existing single-cell foundation models, while adapting to diverse experimental conditions. More importantly, InstructCell provides an accessible and intuitive tool for exploring complex single-cell data, lowering technical barriers and enabling deeper biological insights.

arxiv情報

著者 Yin Fang,Xinle Deng,Kangwei Liu,Ningyu Zhang,Jingyang Qian,Penghui Yang,Xiaohui Fan,Huajun Chen
発行日 2025-01-15 02:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.HC, cs.LG, q-bio.CB パーマリンク