Generative Distribution Embeddings

要約

多くの現実世界の問題には、複数のスケールにわたる推論が必要であり、単一のデータポイントではなく分布全体で動作するモデルを要求します。
自動エンコーダーを分布の空間に持ち上げるフレームワークである生成分布埋め込み(GDE)を導入します。
GDESでは、エンコーダーがサンプルのセットに作用し、デコーダーは入力分布を一致させることを目的としたジェネレーターに置き換えられます。
このフレームワークにより、分布不変性と呼ばれる基準を満たすエンコーダーネットワークを使用して条件付き生成モデルを結合することにより、分布の学習表現を可能にします。
GDEは、ワッサースタイン空間に埋め込まれた予測的な十分な統計を学習し、潜在的なGDE距離が$ w_2 $距離をほぼ回復するようにし、潜在補間はガウスとガウスの混合物の分布の最適な輸送軌跡をほぼ回復することを示します。
合成データセット上の既存のアプローチに対してGDEを体系的にベンチマークし、一貫してより強力なパフォーマンスを示しています。
次に、計算生物学の6つの重要な問題にGDEを適用します:系統トレースデータ(150K細胞)からの細胞集団の学習表現(150K細胞)、単一細胞トランスクリプトーム(1M細胞)への摂動効果の予測、細胞表現型に対する摂動効果(20Mシングルセル画像)の摂動効果の予測、組織特異的DNA特異的DNAメチル化パターン(253mmの標識パターン(2533M)のモデル化
シーケンス)、およびウイルスタンパク質配列の時空モデリング(1Mシーケンス)。

要約(オリジナル)

Many real-world problems require reasoning across multiple scales, demanding models which operate not on single data points, but on entire distributions. We introduce generative distribution embeddings (GDE), a framework that lifts autoencoders to the space of distributions. In GDEs, an encoder acts on sets of samples, and the decoder is replaced by a generator which aims to match the input distribution. This framework enables learning representations of distributions by coupling conditional generative models with encoder networks which satisfy a criterion we call distributional invariance. We show that GDEs learn predictive sufficient statistics embedded in the Wasserstein space, such that latent GDE distances approximately recover the $W_2$ distance, and latent interpolation approximately recovers optimal transport trajectories for Gaussian and Gaussian mixture distributions. We systematically benchmark GDEs against existing approaches on synthetic datasets, demonstrating consistently stronger performance. We then apply GDEs to six key problems in computational biology: learning representations of cell populations from lineage-tracing data (150K cells), predicting perturbation effects on single-cell transcriptomes (1M cells), predicting perturbation effects on cellular phenotypes (20M single-cell images), modeling tissue-specific DNA methylation patterns (253M sequences), designing synthetic yeast promoters (34M sequences), and spatiotemporal modeling of viral protein sequences (1M sequences).

arxiv情報

著者 Nic Fishman,Gokul Gowri,Peng Yin,Jonathan Gootenberg,Omar Abudayyeh
発行日 2025-05-23 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, stat.ML パーマリンク