要約
タンパク質とRNAの結合親和性を正確に測定することは、多くの生物学的プロセスや薬剤設計において極めて重要である。タンパク質とRNAの結合親和性を予測するためのこれまでの計算機的手法は、配列または構造の特徴に依存しており、結合メカニズムを包括的に捉えることはできなかった。最近では、膨大な量の教師なしタンパク質配列とRNA配列で学習させた言語モデルが登場し、結合部位予測を含む様々なドメイン内下流タスクに対して強力な表現能力を示している。しかし、異なるドメインの言語モデルを複雑なレベルのタスクに協調的に適用することは、まだ未開拓である。本論文では、タンパク質とRNAの結合親和性予測のために、異なる生物学的ドメインから複合体構造を介して事前に訓練された言語モデルを橋渡しするCoPRAを提案する。我々は初めて、異なる生物学的モーダル言語モデルが結合親和性予測を改善するために連携できることを実証する。Co-Formerの相互作用理解を向上させるために、クロスモーダルな配列情報と構造情報を結合するCo-Formerとバイスコープ事前学習戦略を提案する。一方、性能評価のために、最大のタンパク質-RNA結合親和性データセットPRA310を構築した。また、変異効果予測のための公開データセットで我々のモデルをテストした。CoPRAは全てのデータセットで最先端の性能を達成した。我々は広範な解析を行い、CoPRAが(1)タンパク質とRNAの結合親和性を正確に予測できること、(2)突然変異による結合親和性の変化を理解できること、(3)データとモデルサイズをスケーリングすることで利益を得られることを検証した。
要約(オリジナル)
Accurately measuring protein-RNA binding affinity is crucial in many biological processes and drug design. Previous computational methods for protein-RNA binding affinity prediction rely on either sequence or structure features, unable to capture the binding mechanisms comprehensively. The recent emerging pre-trained language models trained on massive unsupervised sequences of protein and RNA have shown strong representation ability for various in-domain downstream tasks, including binding site prediction. However, applying different-domain language models collaboratively for complex-level tasks remains unexplored. In this paper, we propose CoPRA to bridge pre-trained language models from different biological domains via Complex structure for Protein-RNA binding Affinity prediction. We demonstrate for the first time that cross-biological modal language models can collaborate to improve binding affinity prediction. We propose a Co-Former to combine the cross-modal sequence and structure information and a bi-scope pre-training strategy for improving Co-Former’s interaction understanding. Meanwhile, we build the largest protein-RNA binding affinity dataset PRA310 for performance evaluation. We also test our model on a public dataset for mutation effect prediction. CoPRA reaches state-of-the-art performance on all the datasets. We provide extensive analyses and verify that CoPRA can (1) accurately predict the protein-RNA binding affinity; (2) understand the binding affinity change caused by mutations; and (3) benefit from scaling data and model size.
arxiv情報
著者 | Rong Han,Xiaohong Liu,Tong Pan,Jing Xu,Xiaoyu Wang,Wuyang Lan,Zhenyu Li,Zixuan Wang,Jiangning Song,Guangyu Wang,Ting Chen |
発行日 | 2025-01-03 13:03:15+00:00 |
arxivサイト | arxiv_id(pdf) |