要約
タンパク質間相互作用(PPI)は多くの細胞プロセスの基本であり、その特性は疾患メカニズムを理解し、創薬を導くために不可欠です。
タンパク質言語モデル(PLMS)は、タンパク質の構造と機能の予測に顕著な成功を示していますが、シーケンスベースのPPI結合親和性予測への応用は比較的目立たないままです。
このギャップは、多くの場合、高品質で厳密に洗練されたデータセットの希少性と、タンパク質表現を連結するための単純な戦略への依存に起因します。
この作業では、これらの制限に対処します。
まず、マルチチェーンタンパク質相互作用のための注釈の一貫性と重複エントリを解決することにより、合計8,207個のユニークなタンパク質相互作用エントリのPPBアフィニティデータセットの細心の注意を払ってキュレーションされたバージョンを紹介します。
このデータセットには、30%以下の厳格なシーケンスアイデンティティのしきい値が組み込まれており、トレーニング、検証、およびテストセットに堅牢な分割を確保し、データの漏れを最小限に抑えます。
第二に、PLMSをPPI結合親和性予測に適応させるための4つのアーキテクチャを提案し、体系的に評価します:埋め込み連結(EC)、シーケンス連結(SC)、階層プーリング(HP)、およびプールされた注意追加(PAD)。
これらのアーキテクチャは、2つのトレーニング方法を使用して評価されました。完全な微調整と、凍結したPLM機能を使用するコンバートヘッドを使用する軽量アプローチです。
複数の主要なPLMS(PROTT5、ESM2、ANKH、ANKH2、およびESM3)にわたる包括的な実験は、HPおよびPADアーキテクチャが一貫して従来の連結方法よりも優れており、スピアマン相関に関して最大12%増加することを実証しました。
これらの結果は、微妙なPPI結合親和性予測のためにPLMSの機能を完全に活用するための洗練された建築設計の必要性を強調しています。
要約(オリジナル)
Protein-protein interactions (PPIs) are fundamental to numerous cellular processes, and their characterization is vital for understanding disease mechanisms and guiding drug discovery. While protein language models (PLMs) have demonstrated remarkable success in predicting protein structure and function, their application to sequence-based PPI binding affinity prediction remains relatively underexplored. This gap is often attributed to the scarcity of high-quality, rigorously refined datasets and the reliance on simple strategies for concatenating protein representations. In this work, we address these limitations. First, we introduce a meticulously curated version of the PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction entries, by resolving annotation inconsistencies and duplicate entries for multi-chain protein interactions. This dataset incorporates a stringent, less than or equal to 30%, sequence identity threshold to ensure robust splitting into training, validation, and test sets, minimizing data leakage. Second, we propose and systematically evaluate four architectures for adapting PLMs to PPI binding affinity prediction: embeddings concatenation (EC), sequences concatenation (SC), hierarchical pooling (HP), and pooled attention addition (PAD). These architectures were assessed using two training methods: full fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM features. Our comprehensive experiments across multiple leading PLMs (ProtT5, ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures consistently outperform conventional concatenation methods, achieving up to 12% increase in terms of Spearman correlation. These results highlight the necessity of sophisticated architectural designs to fully exploit the capabilities of PLMs for nuanced PPI binding affinity prediction.
arxiv情報
著者 | Hazem Alsamkary,Mohamed Elshaffei,Mohamed Soudy,Sara Ossman,Abdallah Amr,Nehal Adel Abdelsalam,Mohamed Elkerdawy,Ahmed Elnaggar |
発行日 | 2025-05-26 14:23:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google