Low dimensional representation of multi-patient flow cytometry datasets using optimal transport for minimal residual disease detection in leukemia

要約

血液と骨髄に影響を与えるがんの一種である急性骨髄性白血病 (AML) における微小残存病変 (MRD) を表し、定量化することは、AML 患者の予後と追跡調査において不可欠です。
従来の細胞学的分析では 5% 未満の白血病細胞を検出できないため、フローサイトメトリー データセットの分析により、より信頼性の高い結果が得られることが期待されています。
この論文では、高次元の確率分布とみなされる複数患者のフローサイトメトリー測定 (FCM) データセットの適切な低次元表現を実現する、最適輸送 (OT) に基づく統計学習方法を検討します。
OT のフレームワークを使用して、すべてのデータを 1 つの点群にマージすることで、平均値量子化を通じて複数の大規模点群の次元削減に K 平均法アルゴリズムを使用することを正当化します。
この量子化ステップの後、線形化 OT によるワッサーシュタイン主成分分析 (PCA) または組成の対数比 PCA を使用して、低次元の量子化確率測定を線形空間に埋め込むことによって、患者内および患者間の FCM 変動の視覚化が実行されます。
データ。
公開されている FCM データセットとボルドー大学病院の FCM データセットを使用して、複数の高次元確率分布から統計学習するための一般的なカーネル平均埋め込み手法と比較した、私たちのアプローチの利点を実証します。
また、FCM からの AML における MRD レベルに応じた低次元投影およびクラスタリング患者測定に対する私たちの方法論の有用性も強調します。
特に、当社の OT ベースのアプローチにより、複数患者 FCM を使用した AML における MRD の検出のための最先端の方法である FlowSom アルゴリズムの結果の、関連性があり有益な 2 次元表現が可能になります。

要約(オリジナル)

Representing and quantifying Minimal Residual Disease (MRD) in Acute Myeloid Leukemia (AML), a type of cancer that affects the blood and bone marrow, is essential in the prognosis and follow-up of AML patients. As traditional cytological analysis cannot detect leukemia cells below 5\%, the analysis of flow cytometry dataset is expected to provide more reliable results. In this paper, we explore statistical learning methods based on optimal transport (OT) to achieve a relevant low-dimensional representation of multi-patient flow cytometry measurements (FCM) datasets considered as high-dimensional probability distributions. Using the framework of OT, we justify the use of the K-means algorithm for dimensionality reduction of multiple large-scale point clouds through mean measure quantization by merging all the data into a single point cloud. After this quantization step, the visualization of the intra and inter-patients FCM variability is carried out by embedding low-dimensional quantized probability measures into a linear space using either Wasserstein Principal Component Analysis (PCA) through linearized OT or log-ratio PCA of compositional data. Using a publicly available FCM dataset and a FCM dataset from Bordeaux University Hospital, we demonstrate the benefits of our approach over the popular kernel mean embedding technique for statistical learning from multiple high-dimensional probability distributions. We also highlight the usefulness of our methodology for low-dimensional projection and clustering patient measurements according to their level of MRD in AML from FCM. In particular, our OT-based approach allows a relevant and informative two-dimensional representation of the results of the FlowSom algorithm, a state-of-the-art method for the detection of MRD in AML using multi-patient FCM.

arxiv情報

著者 Erell Gachon,Jérémie Bigot,Elsa Cazelles,Aguirre Mimoun,Jean-Philippe Vial
発行日 2024-07-24 14:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク