Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation

要約

タンパク質はほぼすべての生物学的プロセスに不可欠であり、その多様な機能は複雑な 3D 構造から得られ、その機能はアミノ酸配列によって決まります。
この論文では、アミノ酸配列の豊富な生物学的誘導バイアスを利用し、タンパク質構造生成のための新しい配列条件付きSE(3)等価フローマッチングモデルであるFoldFlow-2を紹介します。
FoldFlow-2 は、シーケンスをエンコードするためのタンパク質大規模言語モデル、構造とシーケンス表現を組み合わせた新しいマルチモーダル融合トランク、幾何学的トランスフォーマー ベースのデコーダなど、以前の FoldFlow ファミリのモデルに比べて大幅に新しいアーキテクチャ機能を提供します。
生成されたサンプルの多様性と新規性を高めるため (デノボ医薬品設計に不可欠)、PDB 内の既知のタンパク質を両方含む、以前の研究の PDB データセットよりも一桁大きい新しいデータセットで FoldFlow-2 を大規模にトレーニングします。
フィルタリングを通じて実現された高品質の合成構造。
さらに、FoldFlow-2 を任意の報酬に合わせて調整できることを示します。
Reinforced Finetuning (ReFT) 目標の導入により、二次構造の多様性が増加します。
私たちは、FoldFlow-2 が以前の最先端のタンパク質構造ベースの生成モデルより優れたパフォーマンスを示し、タンパク質のすべての長さにわたる設計可能性、多様性、新規性を含むすべての指標にわたる無条件生成の点で RFDiffusion よりも優れていることを経験的に観察しています。
平衡構造サンプリングのタスクに関する一般化。
最後に、微調整された FoldFlow-2 が、VHH ナノボディの足場の設計などの困難な条件付き設計タスクで進歩することを実証します。

要約(オリジナル)

Proteins are essential for almost all biological processes and derive their diverse functions from complex 3D structures, which are in turn determined by their amino acid sequences. In this paper, we exploit the rich biological inductive bias of amino acid sequences and introduce FoldFlow-2, a novel sequence-conditioned SE(3)-equivariant flow matching model for protein structure generation. FoldFlow-2 presents substantial new architectural features over the previous FoldFlow family of models including a protein large language model to encode sequence, a new multi-modal fusion trunk that combines structure and sequence representations, and a geometric transformer based decoder. To increase diversity and novelty of generated samples — crucial for de-novo drug design — we train FoldFlow-2 at scale on a new dataset that is an order of magnitude larger than PDB datasets of prior works, containing both known proteins in PDB and high-quality synthetic structures achieved through filtering. We further demonstrate the ability to align FoldFlow-2 to arbitrary rewards, e.g. increasing secondary structures diversity, by introducing a Reinforced Finetuning (ReFT) objective. We empirically observe that FoldFlow-2 outperforms previous state-of-the-art protein structure-based generative models, improving over RFDiffusion in terms of unconditional generation across all metrics including designability, diversity, and novelty across all protein lengths, as well as exhibiting generalization on the task of equilibrium conformation sampling. Finally, we demonstrate that a fine-tuned FoldFlow-2 makes progress on challenging conditional design tasks such as designing scaffolds for the VHH nanobody.

arxiv情報

著者 Guillaume Huguet,James Vuckovic,Kilian Fatras,Eric Thibodeau-Laufer,Pablo Lemos,Riashat Islam,Cheng-Hao Liu,Jarrid Rector-Brooks,Tara Akhound-Sadegh,Michael Bronstein,Alexander Tong,Avishek Joey Bose
発行日 2024-05-30 17:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク