Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model

要約

シグナルペプチド (SP) は、タンパク質の N 末端に位置する短いペプチドです。
膜貫通タンパク質および分泌タンパク質を標的にして正しい位置に移送することが重要です。
シグナルペプチドを同定する従来の実験的方法と比較して、計算的方法はより高速かつ効率的であり、特にメタゲノムデータなど、数千または数百万のタンパク質配列を分析する場合により実用的です。
今回我々は、タンパク質言語モデルを利用したシグナルペプチド分類および切断部位予測ディープラーニング手法であるUnbiased Organism-agnostic Signal Peptide Network (USPNet)を紹介します。
我々は、ラベル分布を意識したマージン損失を適用してデータの不均衡問題を処理し、タンパク質の進化情報を使用して表現を豊かにし、種情報依存性を克服することを提案します。

要約(オリジナル)

Signal peptide (SP) is a short peptide located in the N-terminus of proteins. It is essential to target and transfer transmembrane and secreted proteins to correct positions. Compared with traditional experimental methods to identify signal peptides, computational methods are faster and more efficient, which are more practical for analyzing thousands or even millions of protein sequences, especially for metagenomic data. Here we present Unbiased Organism-agnostic Signal Peptide Network (USPNet), a signal peptide classification and cleavage site prediction deep learning method that takes advantage of protein language models. We propose to apply label distribution-aware margin loss to handle data imbalance problems and use evolutionary information of protein to enrich representation and overcome species information dependence.

arxiv情報

著者 Junbo Shen,Qinze Yu,Shenyang Chen,Qingxiong Tan,Jingcheng Li,Yu Li
発行日 2023-12-14 14:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.QM パーマリンク