Modelling Cellular Perturbations with the Sparse Additive Mechanism Shift Variational Autoencoder

要約

介入下での観察の生成モデルは、近年、機械学習と科学全体で活発な関心を集めているトピックです。
たとえば、創薬では、未知の生物学的作用機序を特徴付けるために、細胞に対するさまざまな介入の効果をモデル化する必要があります。
我々は、摂動モデルの構成性、もつれ解除、および解釈可能性を組み合わせるために、スパース加法メカニズムシフト変分オートエンコーダ SAMS-VAE を提案します。
SAMS-VAE は、摂動サンプルの潜在状態を、サンプル固有の変動を捕捉する局所潜在変数と潜在介入効果の疎なグローバル変数の合計としてモデル化します。
重要なことは、SAMS-VAE は、個々の摂動に対するこれらのグローバル潜在変数をスパース化し、柔軟に構成可能な、もつれの解けた摂動固有の潜在部分空間を識別することです。
私たちは、2 つの一般的な単一細胞配列データセットを使用して、さまざまなタスクに関して SAMS-VAE を定量的および定性的に評価します。
摂動特有のモデル特性を測定するために、事後予測チェックとのリンクを備えた平均治療効果に基づく摂動モデルの評価のためのフレームワークも導入します。
SAMS-VAE は、リソース不足下での組み合わせ推論タスクを含む、分布内タスクと分布外タスクにわたる一般化の点で同等のモデルを上回っており、既知の生物学的メカニズムと強く相関する解釈可能な潜在構造を生成します。
私たちの結果は、SAMS-VAE が機械学習主導の科学的発見のためのモデリング ツールキットへの興味深い追加であることを示唆しています。

要約(オリジナル)

Generative models of observations under interventions have been a vibrant topic of interest across machine learning and the sciences in recent years. For example, in drug discovery, there is a need to model the effects of diverse interventions on cells in order to characterize unknown biological mechanisms of action. We propose the Sparse Additive Mechanism Shift Variational Autoencoder, SAMS-VAE, to combine compositionality, disentanglement, and interpretability for perturbation models. SAMS-VAE models the latent state of a perturbed sample as the sum of a local latent variable capturing sample-specific variation and sparse global variables of latent intervention effects. Crucially, SAMS-VAE sparsifies these global latent variables for individual perturbations to identify disentangled, perturbation-specific latent subspaces that are flexibly composable. We evaluate SAMS-VAE both quantitatively and qualitatively on a range of tasks using two popular single cell sequencing datasets. In order to measure perturbation-specific model-properties, we also introduce a framework for evaluation of perturbation models based on average treatment effects with links to posterior predictive checks. SAMS-VAE outperforms comparable models in terms of generalization across in-distribution and out-of-distribution tasks, including a combinatorial reasoning task under resource paucity, and yields interpretable latent structures which correlate strongly to known biological mechanisms. Our results suggest SAMS-VAE is an interesting addition to the modeling toolkit for machine learning-driven scientific discovery.

arxiv情報

著者 Michael Bereket,Theofanis Karaletsos
発行日 2024-01-16 01:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM, stat.ML パーマリンク