Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins

要約

我々は、因果的多頭グラフメカニズムでトランスフォーマーとグラフ畳み込みアーキテクチャを統合するアテンションニューラルネットワークに基づいて、タンパク質モデリングにおける複雑な順問題と逆問題を解決するためにここで適用される、柔軟な言語モデルベースの深層学習戦略を報告します。
生成的な事前トレーニング済みモデル。
このモデルは、二次構造含有量 (残基ごとのレベルおよび全体の含有量)、タンパク質の溶解度、およびシーケンスタスクを予測するために適用されます。
逆タスクでさらにトレーニングすると、モデルはこれらの特性をターゲット特徴として持つタンパク質を設計できるようになります。
このモデルは、完全にプロンプ​​トベースの一般的なフレームワークとして定式化されており、さまざまな下流タスクに適応できます。
追加のタスクを追加すると、各データセットのみでモデルをトレーニングすることによって可能となるものを超えて、モデルが全体的なパフォーマンスの向上に活用する新たな相乗効果が得られることがわかりました。
この方法を検証するためにケーススタディが提示され、特に構造タンパク質に焦点を当てたタンパク質設計が得られますが、可溶性抗菌生体材料の設計における適用性も探求されています。
私たちのモデルは最終的に 8 つの異なるタスクを実行するようにトレーニングされていますが、利用可能なデータセットを使用して追加の問題を解決するために拡張できます。
より広い意味で、この研究は、一連の究極の構成要素 (ここでは、物理システムの性質を定義するバイトレベルの utf8 文字) を複雑な出力に関連付けるマルチスケール モデリングの形式を示しています。
このマテリオミックなスキームは、普遍性と多様性の相互作用を介して、トレーニングで使用される知識に埋め込まれた一連の潜在性を表現する相乗的な学習能力を介して、普遍的な構成要素と結果として生じる特性の間の複雑な創発的関係を捉えます。

要約(オリジナル)

We report a flexible language-model based deep learning strategy, applied here to solve complex forward and inverse problems in protein modeling, based on an attention neural network that integrates transformer and graph convolutional architectures in a causal multi-headed graph mechanism, to realize a generative pretrained model. The model is applied to predict secondary structure content (per-residue level and overall content), protein solubility, and sequencing tasks. Further trained on inverse tasks, the model is rendered capable of designing proteins with these properties as target features. The model is formulated as a general framework, completely prompt-based, and can be adapted for a variety of downstream tasks. We find that adding additional tasks yields emergent synergies that the model exploits in improving overall performance, beyond what would be possible by training a model on each dataset alone. Case studies are presented to validate the method, yielding protein designs specifically focused on structural proteins, but also exploring the applicability in the design of soluble, antimicrobial biomaterials. While our model is trained to ultimately perform 8 distinct tasks, with available datasets it can be extended to solve additional problems. In a broader sense, this work illustrates a form of multiscale modeling that relates a set of ultimate building blocks (here, byte-level utf8 characters that define the nature of the physical system at hand) to complex output. This materiomic scheme captures complex emergent relationships between universal building block and resulting properties via a synergizing learning capacity to express a set of potentialities embedded in the knowledge used in training, via the interplay of universality and diversity.

arxiv情報

著者 Markus J. Buehler
発行日 2023-07-11 12:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.soft, cs.LG, q-bio.BM パーマリンク