Predicting protein variants with equivariant graph neural networks

要約

事前トレーニングされたモデルは、多くのタンパク質工学タスクで成功しています。
最も注目すべき点は、配列ベースのモデルがタンパク質の適合性予測において最先端のパフォーマンスを達成し、構造ベースのモデルが機能を強化したタンパク質の開発に実験的に使用されてきたことです。
しかし、野生型タンパク質よりも優れたタンパク質変異体を予測するための、構造ベースと配列ベースの方法の比較には研究上のギャップがあります。
この論文は、有望なアミノ酸変異を特定するための等変グラフ ニューラル ネットワーク (EGNN) と配列ベースのアプローチの能力を比較研究することで、このギャップに対処することを目的としています。
結果は、私たちが提案した構造アプローチが、大幅に少ない分子でトレーニングされながら、配列ベースの方法と競合するパフォーマンスを達成することを示しています。
さらに、アッセイでラベル付けされたデータを構造事前トレーニング済みモデルと組み合わせると、配列事前トレーニング済みモデルと同様の傾向が得られることがわかりました。

要約(オリジナル)

Pre-trained models have been successful in many protein engineering tasks. Most notably, sequence-based models have achieved state-of-the-art performance on protein fitness prediction while structure-based models have been used experimentally to develop proteins with enhanced functions. However, there is a research gap in comparing structure- and sequence-based methods for predicting protein variants that are better than the wildtype protein. This paper aims to address this gap by conducting a comparative study between the abilities of equivariant graph neural networks (EGNNs) and sequence-based approaches to identify promising amino-acid mutations. The results show that our proposed structural approach achieves a competitive performance to sequence-based methods while being trained on significantly fewer molecules. Additionally, we find that combining assay labelled data with structure pre-trained models yields similar trends as with sequence pre-trained models.

arxiv情報

著者 Antonia Boca,Simon Mathis
発行日 2023-06-21 12:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク