Pairing interacting protein sequences using masked language modeling

要約

アミノ酸配列からどのタンパク質が相互作用するかを予測することは重要な課題です。
私たちは、MSA Transformer や AlphaFold の EvoFormer モジュールなど、複数の配列アラインメントでトレーニングされたタンパク質言語モデルの力を活用して、相互作用するタンパク質配列をペアにする方法を開発します。
我々は、微分可能な方法で 2 つのタンパク質ファミリーのパラログ間の相互作用パートナーのペアリングの問題を定式化します。
周囲のコンテキストを使用して複数の配列アラインメントでマスクされたアミノ酸を埋める MSA Transformer の機能を利用することで、この問題を解決する DiffPALM と呼ばれる方法を紹介します。
MSA Transformer は、機能的または構造的に結合したアミノ酸間の共進化をコードします。
単一チェーン データでトレーニングされている一方で、チェーン間の共進化を捕捉していることを示します。これは、分散外で使用できることを意味します。
DiffPALM は、微調整なしで MSA Transformer に依存するため、遍在する原核生物タンパク質のデータセットから抽出された浅い多重配列アラインメントの困難なベンチマークにおいて、既存の共進化ベースのペアリング手法を上回ります。
また、単一配列でトレーニングされた最先端のタンパク質言語モデルに基づく代替手法よりも優れたパフォーマンスを発揮します。
相互作用するタンパク質配列のペアアライメントは、タンパク質複合体の三次元構造を予測するための教師ありディープラーニング手法の重要な要素です。
DiffPALM は、AlphaFold-Multimer による一部の真核生物タンパク質複合体の構造予測を大幅に改善しますが、テストしたもののいずれも大幅に劣化することはありません。
また、オーソロジーベースのペアリングを使用することで、競争力のあるパフォーマンスも実現します。

要約(オリジナル)

Predicting which proteins interact together from amino-acid sequences is an important task. We develop a method to pair interacting protein sequences which leverages the power of protein language models trained on multiple sequence alignments, such as MSA Transformer and the EvoFormer module of AlphaFold. We formulate the problem of pairing interacting partners among the paralogs of two protein families in a differentiable way. We introduce a method called DiffPALM that solves it by exploiting the ability of MSA Transformer to fill in masked amino acids in multiple sequence alignments using the surrounding context. MSA Transformer encodes coevolution between functionally or structurally coupled amino acids. We show that it captures inter-chain coevolution, while it was trained on single-chain data, which means that it can be used out-of-distribution. Relying on MSA Transformer without fine-tuning, DiffPALM outperforms existing coevolution-based pairing methods on difficult benchmarks of shallow multiple sequence alignments extracted from ubiquitous prokaryotic protein datasets. It also outperforms an alternative method based on a state-of-the-art protein language model trained on single sequences. Paired alignments of interacting protein sequences are a crucial ingredient of supervised deep learning methods to predict the three-dimensional structure of protein complexes. DiffPALM substantially improves the structure prediction of some eukaryotic protein complexes by AlphaFold-Multimer, without significantly deteriorating any of those we tested. It also achieves competitive performance with using orthology-based pairing.

arxiv情報

著者 Umberto Lupo,Damiano Sgarbossa,Anne-Florence Bitbol
発行日 2023-08-14 13:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T50, 92-08, 92B20, cs.LG, I.2.7, q-bio.BM パーマリンク