要約
タンパク質の構造は、その機能と相互作用を理解するために重要です。
現在、多くのタンパク質構造予測法により構造データベースが充実しています。
構造の起源を識別することは、実験的に解明された構造と計算によって予測された構造を区別し、予測方法の信頼性を評価し、下流の生物学的研究を導くために重要です。
構造予測の研究に基づいて、タンパク質構造の起源を表現および識別するための、構造に敏感な教師付き深層学習モデル、Crystal vs Predicted Evaluator for Protein Structure (CPE-Pro) を開発しました。
CPE-Pro はタンパク質の構造情報を学習し、構造間の差異を捕捉して 4 つのデータ クラスで正確なトレーサビリティを実現しており、さらに多くのデータ クラスに拡張されることが期待されています。
同時に、Foldseek を利用してタンパク質構造を「構造シーケンス」にエンコードし、タンパク質構造シーケンス言語モデル (SSLM) をトレーニングしました。
予備実験では、膨大な量のアミノ酸配列で事前トレーニングされた大規模なタンパク質言語モデルと比較して、「構造シーケンス」により言語モデルがより有益なタンパク質の特徴を学習し、構造表現を強化および最適化できることが実証されました。
コード、モデルの重み、およびすべての関連資料は https://github.com/GouWenrui/CPE-Pro-main.git で提供されています。
要約(オリジナル)
Protein structures are important for understanding their functions and interactions. Currently, many protein structure prediction methods are enriching the structure database. Discriminating the origin of structures is crucial for distinguishing between experimentally resolved and computationally predicted structures, evaluating the reliability of prediction methods, and guiding downstream biological studies. Building on works in structure prediction, We developed a structure-sensitive supervised deep learning model, Crystal vs Predicted Evaluator for Protein Structure (CPE-Pro), to represent and discriminate the origin of protein structures. CPE-Pro learns the structural information of proteins and captures inter-structural differences to achieve accurate traceability on four data classes, and is expected to be extended to more. Simultaneously, we utilized Foldseek to encode protein structures into ‘structure-sequences’ and trained a protein Structural Sequence Language Model, SSLM. Preliminary experiments demonstrated that, compared to large-scale protein language models pre-trained on vast amounts of amino acid sequences, the ‘structure-sequence’ enables the language model to learn more informative protein features, enhancing and optimizing structural representations. We have provided the code, model weights, and all related materials on https://github.com/GouWenrui/CPE-Pro-main.git.
arxiv情報
著者 | Wenrui Gou,Wenhui Ge,Yang Tan,Mingchen Li,Guisheng Fan,Huiqun Yu |
発行日 | 2024-10-23 14:08:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google