要約
アクティビティクリフ(AC)とは、一対の類似した分子が小さな構造変化によって異なりますが、生化学的活性には大きな違いを示す現象です。
小分子の AC は広く研究されていますが、標準アミノ酸を含むペプチドにおける AC 現象については限られた知識が蓄積されています。
この研究では、標準アミノ酸で構成される抗菌ペプチド (AMP) における AC 現象の定量的定義とベンチマーク フレームワーク AMPCliff を導入します。
既存の AMP データセットの包括的な分析により、AMP 内の AC の顕著な蔓延が明らかになりました。
AMCPliff は、AMP の活性を最小発育阻止濃度 (MIC) の測定基準によって定量化し、少なくとも 2 倍の MIC 変化を持つ一対の整列ペプチド間の正規化された BLOSUM62 類似性スコアの最小閾値として 0.9 を定義します。
この研究では、公的に利用可能な AMP データセット GRAMPA から黄色ブドウ球菌のペア AMP のベンチマーク データセットを確立し、9 つの機械学習、4 つの深層学習アルゴリズム、4 つのマスク言語モデル、および 4 つのマスク言語モデルを含むさまざまな AMP AC 予測モデルを評価するための厳密な手順を実行します。
生成言語モデル。
私たちの分析により、これらのモデルが AMP AC イベントを検出でき、事前トレーニングされたタンパク質言語 ESM2 モデルが評価全体にわたって優れたパフォーマンスを示していることが明らかになりました。
33 レイヤーの ESM2 がベンチマーク データセットの MIC 値の回帰タスクでスピアマン相関係数 = 0.50 しか達成していないことを考慮すると、AMP アクティビティ クリフの予測パフォーマンスはさらに改善される必要があります。
ソース コードと追加リソースは、https://www.healthinformaticslab.org/supp/ または https://github.com/Kewei2023/AMPCliff-generation で入手できます。
要約(オリジナル)
Activity cliff (AC) is a phenomenon that a pair of similar molecules differ by a small structural alternation but exhibit a large difference in their biochemical activities. The AC of small molecules has been extensively investigated but limited knowledge is accumulated about the AC phenomenon in peptides with canonical amino acids. This study introduces a quantitative definition and benchmarking framework AMPCliff for the AC phenomenon in antimicrobial peptides (AMPs) composed by canonical amino acids. A comprehensive analysis of the existing AMP dataset reveals a significant prevalence of AC within AMPs. AMPCliff quantifies the activities of AMPs by the metric minimum inhibitory concentration (MIC), and defines 0.9 as the minimum threshold for the normalized BLOSUM62 similarity score between a pair of aligned peptides with at least two-fold MIC changes. This study establishes a benchmark dataset of paired AMPs in Staphylococcus aureus from the publicly available AMP dataset GRAMPA, and conducts a rigorous procedure to evaluate various AMP AC prediction models, including nine machine learning, four deep learning algorithms, four masked language models, and four generative language models. Our analysis reveals that these models are capable of detecting AMP AC events and the pre-trained protein language ESM2 model demonstrates superior performance across the evaluations. The predictive performance of AMP activity cliffs remains to be further improved, considering that ESM2 with 33 layers only achieves the Spearman correlation coefficient=0.50 for the regression task of the MIC values on the benchmark dataset. Source code and additional resources are available at https://www.healthinformaticslab.org/supp/ or https://github.com/Kewei2023/AMPCliff-generation.
arxiv情報
著者 | Kewei Li,Yuqian Wu,Yutong Guo,Yinheng Li,Yusi Fan,Ruochi Zhang,Lan Huang,Fengfeng Zhou |
発行日 | 2024-04-15 12:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google