Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding

要約

タンパク質の逆フォールディング、つまり、望ましい 3D 構造に折りたたまれるアミノ酸配列の予測は、構造に基づいたタンパク質設計にとって重要な問題です。
機械学習ベースの逆折りたたみ手法では、通常、最適化の目的として元のシーケンスの回復が使用されます。
ただし、逆折りたたみは、複数のシーケンスが同じ構造に折りたたまれる可能性がある 1 対多の問題です。
さらに、多くの実際の応用では、下流の最適化のためにより多くの候補配列を可能にするため、ターゲット構造に折り畳まれる複数の多様な配列を持つことが望ましいことがよくあります。
ここで、我々は、最近の逆フォールディング法は配列回復の増加を示しているが、その「フォールディング可能な多様性」、すなわち、
標的と一致する構造に折りたたまれる複数の非類似配列を生成する能力は増加しません。
これに対処するために、シーケンス回復に関して事前トレーニングされ、構造の一貫性に関して強化学習によって調整された逆折り畳み用のカテゴリカル拡散モデルである RL-DIF を紹介します。
RL-DIF はベンチマーク モデルと同等の配列回復性と構造的一貫性を達成しているが、より優れた折り畳み可能な多様性を示していることがわかりました。実験により、RL-DIF は、同じデータセットでトレーニングされたモデルからの 23% と比較して、CATH 4.2 では 29% の折り畳み可能な多様性を達成できることが示されました。

PyTorch モデルの重みとサンプリング コードは GitHub で入手できます。

要約(オリジナル)

Protein inverse folding-that is, predicting an amino acid sequence that will fold into the desired 3D structure-is an important problem for structure-based protein design. Machine learning based methods for inverse folding typically use recovery of the original sequence as the optimization objective. However, inverse folding is a one-to-many problem where several sequences can fold to the same structure. Moreover, for many practical applications, it is often desirable to have multiple, diverse sequences that fold into the target structure since it allows for more candidate sequences for downstream optimizations. Here, we demonstrate that although recent inverse folding methods show increased sequence recovery, their ‘foldable diversity’-i.e. their ability to generate multiple non-similar sequences that fold into the structures consistent with the target-does not increase. To address this, we present RL-DIF, a categorical diffusion model for inverse folding that is pre-trained on sequence recovery and tuned via reinforcement learning on structural consistency. We find that RL-DIF achieves comparable sequence recovery and structural consistency to benchmark models but shows greater foldable diversity: experiments show RL-DIF can achieve an foldable diversity of 29% on CATH 4.2, compared to 23% from models trained on the same dataset. The PyTorch model weights and sampling code are available on GitHub.

arxiv情報

著者 Yasha Ektefaie,Olivia Viessmann,Siddharth Narayanan,Drew Dresser,J. Mark Kim,Armen Mkrtchyan
発行日 2024-10-22 16:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク