EMOCPD: Efficient Attention-based Models for Computational Protein Design Using Amino Acid Microenvironment

要約

計算タンパク質設計 (CPD) とは、タンパク質を設計するための計算手法の使用を指します。
配列設計のためのエネルギー関数とヒューリスティックアルゴリズムに依存する従来の方法は非効率的であり、エネルギー関数と検索アルゴリズムによって精度が制限されるため、生体分子のビッグデータ時代の要求を満たしていません。
既存の深層学習手法はネットワークの学習能力に制約を受けており、まばらなタンパク質構造から有効な情報を抽出できず、タンパク質設計の精度が制限されています。
これらの欠点に対処するために、アミノ酸微小環境を使用した計算タンパク質設計のための効率的な注意ベースのモデル (EMOCPD) を開発しました。
アミノ酸を取り囲む三次元原子環境を解析することでタンパク質中の各アミノ酸のカテゴリーを予測し、予測された確率の高い潜在的なアミノ酸カテゴリーに基づいてタンパク質を最適化することを目的としています。
EMOCPD は、マルチヘッド アテンション メカニズムを採用して、まばらなタンパク質微小環境の重要な特徴に焦点を当て、逆残差構造を利用してネットワーク アーキテクチャを最適化します。
提案された EMOCPD は、トレーニング セットで 80% 以上の精度、2 つの独立したテスト セットでそれぞれ 68.33% と 62.32% の精度を達成し、最良の比較方法を 10% 以上上回りました。
タンパク質設計において、EMOCPD から予測される変異体の熱安定性とタンパク質発現は野生型と比較して大幅な改善を示し、優れたタンパク質の設計における EMOCPD の可能性を効果的に検証します。
さらに、EMOCPD の予測は、アミノ酸を陽性、陰性、または中立として分類する 20 アミノ酸の内容に基づいて、プラスまたはマイナスの影響を受けるか、または最小限の影響しか与えません。
研究結果は、EMOCPD がマイナスアミノ酸の含有量が低いタンパク質の設計により適していることを示しています。

要約(オリジナル)

Computational protein design (CPD) refers to the use of computational methods to design proteins. Traditional methods relying on energy functions and heuristic algorithms for sequence design are inefficient and do not meet the demands of the big data era in biomolecules, with their accuracy limited by the energy functions and search algorithms. Existing deep learning methods are constrained by the learning capabilities of the networks, failing to extract effective information from sparse protein structures, which limits the accuracy of protein design. To address these shortcomings, we developed an Efficient attention-based Models for Computational Protein Design using amino acid microenvironment (EMOCPD). It aims to predict the category of each amino acid in a protein by analyzing the three-dimensional atomic environment surrounding the amino acids, and optimize the protein based on the predicted high-probability potential amino acid categories. EMOCPD employs a multi-head attention mechanism to focus on important features in the sparse protein microenvironment and utilizes an inverse residual structure to optimize the network architecture. The proposed EMOCPD achieves over 80% accuracy on the training set and 68.33% and 62.32% accuracy on two independent test sets, respectively, surpassing the best comparative methods by over 10%. In protein design, the thermal stability and protein expression of the predicted mutants from EMOCPD show significant improvements compared to the wild type, effectively validating EMOCPD’s potential in designing superior proteins. Furthermore, the predictions of EMOCPD are influenced positively, negatively, or have minimal impact based on the content of the 20 amino acids, categorizing amino acids as positive, negative, or neutral. Research findings indicate that EMOCPD is more suitable for designing proteins with lower contents of negative amino acids.

arxiv情報

著者 Xiaoqi Ling,Cheng Cai,Zhaohong Deng,Lei Wang,Zhisheng Wei,Jing Wu
発行日 2024-10-28 14:31:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク