Representation Learning for Distributional Perturbation Extrapolation

要約

RNAシーケンスデータなどの低レベルの測定に対する遺伝子ノックダウンや薬物の組み合わせなどの目に見えない摂動の効果をモデル化する問題を検討します。
具体的には、いくつかの摂動の下で収集されたデータが与えられた場合、新しい摂動の測定の分布を予測することを目指しています。
この挑戦的な外挿タスクに対処するために、適切な未知の埋め込みスペースに摂動が加算されることを仮定します。
より正確には、観測されたデータを潜在変数モデルとして根底にある生成プロセスを策定します。このモデルでは、摂動は潜在空間のシフトを平均し、追加することができます。
以前の研究とは異なり、十分に多様なトレーニング摂動を考えると、表現と摂動の影響がアフィン変換に識別できることを証明し、これを使用して、外挿保証を取得する目に見えない摂動のクラスを特徴付けます。
モデルをデータから推定するために、新しい方法である摂動分布オートエンコーダー(PDAE)を提案します。これは、真と予測された摂動分布の間の分布類似性を最大化することによってトレーニングされます。
その後、訓練されたモデルを使用して、以前に見えない摂動分布を予測できます。
経験的証拠は、PDAEが目に見えない摂動の影響を予測する際に既存の方法やベースラインと比較していることを示唆しています。

要約(オリジナル)

We consider the problem of modelling the effects of unseen perturbations such as gene knockdowns or drug combinations on low-level measurements such as RNA sequencing data. Specifically, given data collected under some perturbations, we aim to predict the distribution of measurements for new perturbations. To address this challenging extrapolation task, we posit that perturbations act additively in a suitable, unknown embedding space. More precisely, we formulate the generative process underlying the observed data as a latent variable model, in which perturbations amount to mean shifts in latent space and can be combined additively. Unlike previous work, we prove that, given sufficiently diverse training perturbations, the representation and perturbation effects are identifiable up to affine transformation, and use this to characterize the class of unseen perturbations for which we obtain extrapolation guarantees. To estimate the model from data, we propose a new method, the perturbation distribution autoencoder (PDAE), which is trained by maximising the distributional similarity between true and predicted perturbation distributions. The trained model can then be used to predict previously unseen perturbation distributions. Empirical evidence suggests that PDAE compares favourably to existing methods and baselines at predicting the effects of unseen perturbations.

arxiv情報

著者 Julius von Kügelgen,Jakob Ketterer,Xinwei Shen,Nicolai Meinshausen,Jonas Peters
発行日 2025-04-25 17:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク