要約
単一細胞データセットには個々の細胞ラベルが欠如していることが多く、疾患に関連する細胞を特定することが困難になります。
これに対処するために、患者レベルのラベルを使用して細胞レベルの分類器のトレーニングとキャリブレーションを可能にする期待値最大化手法である、複数インスタンス学習のための混合モデリング (MMIL) を導入します。
私たちのアプローチは、例えばトレーニングに使用できます。
ラッソ ロジスティック回帰モデル、勾配ブースト ツリー、ニューラル ネットワーク。
急性骨髄性白血病 (AML) および急性リンパ芽球性白血病 (ALL) の臨床的に注釈が付けられた一次患者サンプルに適用すると、当社の手法は癌細胞を正確に特定し、組織および治療時点全体にわたって一般化し、生物学的に関連する特徴を選択します。
さらに、MMIL はセルラベルがわかっている場合にモデルトレーニングに組み込むことができ、ラベル付きデータとラベルなしデータの両方を同時に活用するための強力なフレームワークを提供します。
MIL の混合モデリングは、細胞分類のための新しいアプローチを提供し、特に未知のゴールドスタンダードラベルと高次元を伴うシナリオにおいて、疾患の理解と管理を前進させる大きな可能性を秘めています。
要約(オリジナル)
Single-cell datasets often lack individual cell labels, making it challenging to identify cells associated with disease. To address this, we introduce Mixture Modeling for Multiple Instance Learning (MMIL), an expectation maximization method that enables the training and calibration of cell-level classifiers using patient-level labels. Our approach can be used to train e.g. lasso logistic regression models, gradient boosted trees, and neural networks. When applied to clinically-annotated, primary patient samples in Acute Myeloid Leukemia (AML) and Acute Lymphoblastic Leukemia (ALL), our method accurately identifies cancer cells, generalizes across tissues and treatment timepoints, and selects biologically relevant features. In addition, MMIL is capable of incorporating cell labels into model training when they are known, providing a powerful framework for leveraging both labeled and unlabeled data simultaneously. Mixture Modeling for MIL offers a novel approach for cell classification, with significant potential to advance disease understanding and management, especially in scenarios with unknown gold-standard labels and high dimensionality.
arxiv情報
著者 | Erin Craig,Timothy Keyes,Jolanda Sarno,Maxim Zaslavsky,Garry Nolan,Kara Davis,Trevor Hastie,Robert Tibshirani |
発行日 | 2024-06-12 15:22:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google