Diffusion on language model embeddings for protein sequence generation

要約

タンパク質の設計には、タンパク質の世界に固有の複雑さについての深い理解が必要です。
多くの取り組みが条件付き生成に傾いているか、タンパク質の特定のファミリーに焦点を当てていますが、無条件生成という基本的なタスクは依然として十分に研究されておらず、過小評価されています。
ここでは、タンパク質言語モデル ESM-2 から派生した埋め込み上の連続拡散を活用してアミノ酸配列を生成するモデルである DiMA を紹介し、この極めて重要なドメインを探索します。
DiMA は、自己回帰トランスベースや離散拡散モデルなどの主要なソリューションを上回り、その優れたパフォーマンスにつながる設計選択の影響を定量的に示します。
私たちは、さまざまなモダリティにわたる複数の指標を使用して、生成された配列の品質、多様性、分布の類似性、および生物学的関連性を広範囲に評価します。
私たちのアプローチは、タンパク質空間の固有の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成します。
この研究は、スケーラブルで高品質なタンパク質配列生成のための堅牢なフレームワークを提供することにより、タンパク質設計の分野を前進させ、条件付きモデルの準備を整えます。

要約(オリジナル)

Protein design requires a deep understanding of the inherent complexities of the protein universe. While many efforts lean towards conditional generation or focus on specific families of proteins, the foundational task of unconditional generation remains underexplored and undervalued. Here, we explore this pivotal domain, introducing DiMA, a model that leverages continuous diffusion on embeddings derived from the protein language model, ESM-2, to generate amino acid sequences. DiMA surpasses leading solutions, including autoregressive transformer-based and discrete diffusion models, and we quantitatively illustrate the impact of the design choices that lead to its superior performance. We extensively evaluate the quality, diversity, distribution similarity, and biological relevance of the generated sequences using multiple metrics across various modalities. Our approach consistently produces novel, diverse protein sequences that accurately reflect the inherent structural and functional diversity of the protein space. This work advances the field of protein design and sets the stage for conditional models by providing a robust framework for scalable and high-quality protein sequence generation.

arxiv情報

著者 Viacheslav Meshchaninov,Pavel Strashnov,Andrey Shevtsov,Fedor Nikolaev,Nikita Ivanisenko,Olga Kardymon,Dmitry Vetrov
発行日 2024-03-06 14:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク