A general language model for peptide identification

要約

ペプチド同定の進歩は、タンパク質機能を解読し、治療的発見を加速する当社の能力に革命をもたらしています。
Pdeepppを提示します。Pdeepppは、前処理されたタンパク質言語モデルを並列トランスCNNアーキテクチャと統合し、ペプチド特性評価タスクで最先端のパフォーマンスを実現する深い学習フレームワークを提示します。
モデルのハイブリッドアーキテクチャは、従来のアプローチと比較してUMAPの視覚化のクラスター分離が29%改善されたことで証明されるように、ローカルシーケンスモチーフとグローバルな構造的特徴の両方をキャプチャする際のユニークな機能を示しています。
33の生物学的認識タスク(翻訳後修飾サイトの予測や生物活性ペプチド識別など)にわたって評価されています。
特に、抗菌性ペプチド検出のPR AUC 0.9977で0.9726の精度を達成し、抗マラリア認識シナリオでは誤陰性を37.5%減少させました。
このフレームワークにより、正確な大規模ペプチド分析が可能になり、重要なグリコシル化部位検出の99.5%の特異性を維持しながら、シーケンスアライメントベースの方法で218*アクセラレーションを達成します。PDEEPPPは、相乗的アーキテクチャ設計を通じて計算ペプチド分析のための新しいパラダイムを確立します。
アプリケーションは、GitHub(https://github.com/fondress/pdeeppp)および抱きしめられた顔(https://huggingface.co/fondress/pdepppp)を介して公開されているコード、データ、および事前処理モデルを含む実装を行いました。

要約(オリジナル)

Advances in peptide identification are revolutionizing our ability to decipher protein functions and accelerate therapeutic discovery. We present PDeepPP, a deep learning framework that integrates pretrained protein language models with parallel transformer-CNN architectures, achieving state-of-the-art performance in peptide characterization tasks. The model’s hybrid architecture demonstrates unique capabilities in capturing both local sequence motifs and global structural features, as evidenced by 29% improved cluster separation in UMAP visualizations compared to conventional approaches. Evaluated across 33 biological recognition tasks – including post-translational modification site prediction and bioactive peptide identification – PDeepPP outperformed existing methods in 25 tasks with average AUC improvements of 4.2%. Notably, it achieved 0.9726 accuracy with PR AUC 0.9977 in antimicrobial peptide detection while reducing false negatives by 37.5% in antimalarial recognition scenarios. This framework enables accurate large-scale peptide analysis, achieving 218* acceleration over sequence-alignment-based methods while maintaining 99.5% specificity in critical glycosylation site detection.PDeepPP establishes a new paradigm for computational peptide analysis through its synergistic architecture design, enabling rapid yet precise functional annotation that bridges molecular pattern recognition with translational biomedical applications.We have made our implementation, including code, data, and pretrained models, publicly available via GitHub (https://github.com/fondress/PDeepPP) and Hugging Face (https://huggingface.co/fondress/PDeppPP).

arxiv情報

著者 Jixiu Zhai,Tianchi Lu,Haitian Zhong,Ziyang Xu,Yuhuan Liu,Shengrui Xu,Jingwan Wang,Dan Huang
発行日 2025-04-17 17:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 92C40, cs.AI, cs.LG, I.2.6 パーマリンク