Importance Weighted Expectation-Maximization for Protein Sequence Design

要約

望ましい生物学的機能を備えたタンパク質配列を設計することは、生物学と化学において非常に重要です。
最近の機械学習手法では、高価なウェットラボ検証に代わる代用配列関数モデルが使用されています。
多様で新規なタンパク質配列を高い適応度で効率的に生成するにはどうすればよいでしょうか?
この論文では、与えられた適合性基準に向かってタンパク質配列を生成するアプローチである IsEM-Pro を提案します。
IsEM-Pro の核心は潜在生成モデルであり、個別に学習されたマルコフ ランダム フィールド (MRF) からの組み合わせ構造の特徴によって強化されています。
モデルを学習するためのモンテカルロ期待値最大化法 (MCEM) を開発します。
推論中、潜在空間からのサンプリングにより多様性が強化され、その MRF 特徴が高適応度領域の探索をガイドします。
8 つのタンパク質配列設計タスクに関する実験では、当社の IsEM-Pro が平均適合度スコアでこれまでの最良の方法を少なくとも 55% 上回り、より多様で新規なタンパク質配列を生成することが示されました。

要約(オリジナル)

Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validation. How can we efficiently generate diverse and novel protein sequences with high fitness? In this paper, we propose IsEM-Pro, an approach to generate protein sequences towards a given fitness criterion. At its core, IsEM-Pro is a latent generative model, augmented by combinatorial structure features from a separately learned Markov random fields (MRFs). We develop an Monte Carlo Expectation-Maximization method (MCEM) to learn the model. During inference, sampling from its latent space enhances diversity while its MRFs features guide the exploration in high fitness regions. Experiments on eight protein sequence design tasks show that our IsEM-Pro outperforms the previous best methods by at least 55% on average fitness score and generates more diverse and novel protein sequences.

arxiv情報

著者 Zhenqiao Song,Lei Li
発行日 2024-07-17 16:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク