要約
連続シンプレックスのフローマッチングは、DNA配列設計の有望な戦略として浮上していますが、ペプチドとタンパク質の生成に必要なより高いシンプレックス寸法に拡大するのに苦労しています。
Gumbel-Softmaxの流れとスコアマッチングを導入します。これは、時間依存の温度を持つ新しいGumbel-Softmax散布剤に基づいたシンプレックスの生成的フレームワークです。
この散布剤を使用して、滑らかなカテゴリー分布からシンプレックスの単一の頂点に濃縮された分布に輸送されるパラメーター化された速度フィールドを導出することにより、Gumbel-SoftMaxフローマッチングを導入します。
あるいは、確率密度の勾配を回帰することを学ぶGumbel-SoftMaxスコアマッチングを提示します。
当社のフレームワークにより、高品質で多様な生成とスケールが高次元のシンプルに効率的に可能になります。
トレーニングのないガイダンスを有効にするために、ストレートスルーベースのガイダンス方法であるストレートスルーガイドフロー(STGFLOW)を提案します。これは、ストレートスルー推定器を活用して、単純な頂点に向かって無条件の速度フィールドを操縦することを提案します。
STGFLOWは、クリーンシーケンスで事前に訓練された分類器を使用した効率的な推論時間ガイダンスを有効にし、任意の個別のフロー方法で使用できます。
一緒に、これらのコンポーネントは、制御可能なde novoシーケンス生成のための堅牢なフレームワークを形成します。
まれな疾患治療のための条件付きDNAプロモーター設計、配列のみのタンパク質生成、および標的結合ペプチド設計における最先端のパフォーマンスを示します。
要約(オリジナル)
Flow matching in the continuous simplex has emerged as a promising strategy for DNA sequence design, but struggles to scale to higher simplex dimensions required for peptide and protein generation. We introduce Gumbel-Softmax Flow and Score Matching, a generative framework on the simplex based on a novel Gumbel-Softmax interpolant with a time-dependent temperature. Using this interpolant, we introduce Gumbel-Softmax Flow Matching by deriving a parameterized velocity field that transports from smooth categorical distributions to distributions concentrated at a single vertex of the simplex. We alternatively present Gumbel-Softmax Score Matching which learns to regress the gradient of the probability density. Our framework enables high-quality, diverse generation and scales efficiently to higher-dimensional simplices. To enable training-free guidance, we propose Straight-Through Guided Flows (STGFlow), a classifier-based guidance method that leverages straight-through estimators to steer the unconditional velocity field toward optimal vertices of the simplex. STGFlow enables efficient inference-time guidance using classifiers pre-trained on clean sequences, and can be used with any discrete flow method. Together, these components form a robust framework for controllable de novo sequence generation. We demonstrate state-of-the-art performance in conditional DNA promoter design, sequence-only protein generation, and target-binding peptide design for rare disease treatment.
arxiv情報
著者 | Sophia Tang,Yinuo Zhang,Alexander Tong,Pranam Chatterjee |
発行日 | 2025-03-21 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google