Graph Denoising Diffusion for Inverse Protein Folding

要約

タンパク質の逆フォールディングは、その固有の 1 対多マッピング特性により困難であり、多数の考えられるアミノ酸配列が単一の同一のタンパク質骨格に折りたたまれる可能性があります。
このタスクには、実行可能な配列を特定するだけでなく、潜在的な解決策の多様性を表現することも含まれます。
しかし、変圧器ベースの自己回帰モデルなどの既存の識別モデルは、多様な範囲のもっともらしい解決策をカプセル化するのに苦労しています。
対照的に、拡散確率モデルは、生成アプローチの新しいジャンルとして、決定されたタンパク質骨格に対する多様な配列候補セットを生成する可能性を提供します。
我々は、与えられたタンパク質骨格が対応するアミノ酸残基タイプの拡散プロセスをガイドする、逆タンパク質フォールディングのための新しいグラフノイズ除去拡散モデルを提案します。
このモデルは、ノードの物理化学的特性とローカル環境を条件としたアミノ酸の同時分布を推測します。
さらに、順拡散プロセスにアミノ酸置換行列を利用し、アミノ酸自体だけでなく空間的および連続的な近傍からのアミノ酸の生物学的に意味のある事前知識をコード化し、生成プロセスのサンプリング空間を削減します。
私たちのモデルは、配列回復において一般的なベースライン手法のセットを上回る最先端のパフォーマンスを達成し、決定されたタンパク質骨格構造に対する多様なタンパク質配列の生成において大きな可能性を示します。

要約(オリジナル)

Inverse protein folding is challenging due to its inherent one-to-many mapping characteristic, where numerous possible amino acid sequences can fold into a single, identical protein backbone. This task involves not only identifying viable sequences but also representing the sheer diversity of potential solutions. However, existing discriminative models, such as transformer-based auto-regressive models, struggle to encapsulate the diverse range of plausible solutions. In contrast, diffusion probabilistic models, as an emerging genre of generative approaches, offer the potential to generate a diverse set of sequence candidates for determined protein backbones. We propose a novel graph denoising diffusion model for inverse protein folding, where a given protein backbone guides the diffusion process on the corresponding amino acid residue types. The model infers the joint distribution of amino acids conditioned on the nodes’ physiochemical properties and local environment. Moreover, we utilize amino acid replacement matrices for the diffusion forward process, encoding the biologically-meaningful prior knowledge of amino acids from their spatial and sequential neighbors as well as themselves, which reduces the sampling space of the generative process. Our model achieves state-of-the-art performance over a set of popular baseline methods in sequence recovery and exhibits great potential in generating diverse protein sequences for a determined protein backbone structure.

arxiv情報

著者 Kai Yi,Bingxin Zhou,Yiqing Shen,Pietro Liò,Yu Guang Wang
発行日 2023-06-29 09:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.QM パーマリンク