ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models

要約

タンパク質配列の因果言語モデリングによって事前にトレーニングされたタンパク質言語モデル (pLM) は、タンパク質配列設計の有望なツールとなっています。
実際のタンパク質工学では、タンパク質配列の途中のアミノ酸が最適化され、他の残基が維持される場合が多くあります。
残念ながら、pLM の左から右への性質のため、既存の pLM はプレフィックス残基を促すことでサフィックス残基を変更しますが、これは周囲のコンテキスト全体を考慮した充填タスクには不十分です。
タンパク質工学のためのより効果的な pLMs を見つけるために、新しいベンチマーク、二次構造 E InFilling rEcoveRy、SEIFER を設計します。これは、充填シーケンス設計シナリオに近似します。
ベンチマークで既存のモデルを評価することで、既存の言語モデルの弱点を明らかにし、ProtFIM と呼ばれる中間変換を介してトレーニングされた言語モデルがタンパク質工学により適していることを示します。
また、徹底的な実験と視覚化を通じて、ProtFIM が適切なタンパク質表現を備えたタンパク質配列を生成することを証明します。

要約(オリジナル)

Protein language models (pLMs), pre-trained via causal language modeling on protein sequences, have been a promising tool for protein sequence design. In real-world protein engineering, there are many cases where the amino acids in the middle of a protein sequence are optimized while maintaining other residues. Unfortunately, because of the left-to-right nature of pLMs, existing pLMs modify suffix residues by prompting prefix residues, which are insufficient for the infilling task that considers the whole surrounding context. To find the more effective pLMs for protein engineering, we design a new benchmark, Secondary structureE InFilling rEcoveRy, SEIFER, which approximates infilling sequence design scenarios. With the evaluation of existing models on the benchmark, we reveal the weakness of existing language models and show that language models trained via fill-in-middle transformation, called ProtFIM, are more appropriate for protein engineering. Also, we prove that ProtFIM generates protein sequences with decent protein representations through exhaustive experiments and visualizations.

arxiv情報

著者 Youhan Lee,Hasun Yu
発行日 2023-03-29 04:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク