要約
タンパク質翻訳後修飾(PTM)および生物活性ペプチド(BPS)は、さまざまな生物学的プロセスで重要な役割を果たし、重大な治療可能性を抱えています。
ただし、実験方法を介したPTMサイトと生物活性ペプチドを特定することは、しばしば労働集約的で、費用がかかり、時間がかかります。
その結果、特に深い学習に基づく計算ツールは、PTMサイトとペプチドの生物活性を予測するための効果的なソリューションになりました。
この分野の進歩にもかかわらず、既存の方法は、タンパク質配列の複雑さと、多様なデータセット全体で高品質の予測を必要とするという課題と依然として闘っています。
これらの問題に対処するために、ペプチド分類のためのトランスとCNNを組み合わせた、前処理されたタンパク質言語モデルをニューラルネットワークと統合する深い学習フレームワークを提案します。
タンパク質シーケンス内で複雑な関係をキャプチャする能力を活用することにより、並列ネットワークの予測力と組み合わせて、このアプローチは特徴抽出を改善しながら、予測の精度を向上させます。
このフレームワークは、PTMサイトと生物活性ペプチド予測を含む複数のタスクに適用され、大規模なデータセットを利用してモデルの堅牢性を高めました。
33のタスクにわたる比較では、モデルは25の最先端(SOTA)パフォーマンスを達成し、既存の方法を上回り、異なるデータセットでその汎用性を実証しました。
我々の結果は、このアプローチが大規模なペプチド発見とPTM分析のためのスケーラブルで効果的なソリューションを提供し、より効率的なペプチド分類と機能的注釈への道を開くことを示唆しています。
要約(オリジナル)
Protein post-translational modifications (PTMs) and bioactive peptides (BPs) play critical roles in various biological processes and have significant therapeutic potential. However, identifying PTM sites and bioactive peptides through experimental methods is often labor-intensive, costly, and time-consuming. As a result, computational tools, particularly those based on deep learning, have become effective solutions for predicting PTM sites and peptide bioactivity. Despite progress in this field, existing methods still struggle with the complexity of protein sequences and the challenge of requiring high-quality predictions across diverse datasets. To address these issues, we propose a deep learning framework that integrates pretrained protein language models with a neural network combining transformer and CNN for peptide classification. By leveraging the ability of pretrained models to capture complex relationships within protein sequences, combined with the predictive power of parallel networks, our approach improves feature extraction while enhancing prediction accuracy. This framework was applied to multiple tasks involving PTM site and bioactive peptide prediction, utilizing large-scale datasets to enhance the model’s robustness. In the comparison across 33 tasks, the model achieved state-of-the-art (SOTA) performance in 25 of them, surpassing existing methods and demonstrating its versatility across different datasets. Our results suggest that this approach provides a scalable and effective solution for large-scale peptide discovery and PTM analysis, paving the way for more efficient peptide classification and functional annotation.
arxiv情報
著者 | Jixiu Zhai,Tianchi Lu,Haitian Zhong,Ziyang Xu,Yuhuan Liu,Xueying Wang,Dan Huang |
発行日 | 2025-02-21 17:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google