要約
タンパク質言語モデル(PLMS)は、さまざまな下流タスクで優れている広大なタンパク質シーケンスデータベースで事前に訓練されていますが、多くの生物学的アプリケーションに不可欠な構造知識がありません。
これに対処するために、潜在的なレベルの対照学習タスクを通じて、事前に訓練されたタンパク質グラフニューラルネットワーク(PGNNS)からPLMSに構造的洞察を統合します。
このタスクは、PLMSからの残基表現を複数のタンパク質のPGNNからのものと並べ、PLMをタンパク質間構造知識を濃縮します。
さらに、PLMSを最適化して構造トークンを予測することにより、タンパク質内構造知識を注入する物理レベルのタスクを組み込みます。
提案されているデュアルタスクフレームワークには、タンパク質間およびタンパク質内構造知識の両方がPLMSに効果的に組み込まれています。
PDBのタンパク質構造の品質の変動性を考えると、さらに高品質の構造で訓練された小さなモデルを使用して、PLMが学習するための信頼性が高いが挑戦的な残基損失を選択する残留損失選択モジュールをさらに導入します。
Structure Alignmentメソッドを最先端のESM2に適用し、ESM2接触予測の12.7%の増加を含む、幅広いタスクにわたって顕著なパフォーマンスの向上を結果を増幅します。
データ、コード、および結果のSAESM2およびSaamplifyモデルは、顔を抱きしめてリリースされます。
要約(オリジナル)
Protein language models (pLMs) pre-trained on vast protein sequence databases excel at various downstream tasks but lack the structural knowledge essential for many biological applications. To address this, we integrate structural insights from pre-trained protein graph neural networks (pGNNs) into pLMs through a latent-level contrastive learning task. This task aligns residue representations from pLMs with those from pGNNs across multiple proteins, enriching pLMs with inter-protein structural knowledge. Additionally, we incorporate a physical-level task that infuses intra-protein structural knowledge by optimizing pLMs to predict structural tokens. The proposed dual-task framework effectively incorporates both inter-protein and intra-protein structural knowledge into pLMs. Given the variability in the quality of protein structures in PDB, we further introduce a residue loss selection module, which uses a small model trained on high-quality structures to select reliable yet challenging residue losses for the pLM to learn. Applying our structure alignment method to the state-of-the-art ESM2 and AMPLIFY results in notable performance gains across a wide range of tasks, including a 12.7% increase in ESM2 contact prediction. The data, code, and resulting SaESM2 and SaAMPLIFY models will be released on Hugging Face.
arxiv情報
著者 | Can Chen,David Heurtel-Depeiges,Robert M. Vernon,Christopher James Langmead,Yoshua Bengio,Quentin Fournier |
発行日 | 2025-05-22 16:56:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google