Position Specific Scoring Is All You Need? Revisiting Protein Sequence Classification Tasks

要約

タンパク質の構造的および機能的特性を理解することは、創薬から政策開発までの分野に影響を与える予防および治療戦略を開発するために不可欠です。
位置特異的スコアリング (PSS) を使用して、アミノ酸がタンパク質配列のこれらの特徴をどのように構成しているかを調べるための重要で一般的な手法です。
文字列カーネルは自然言語処理 (NLP) において重要ですが、一般的な配列解析タスクでは有効であることが示されているにもかかわらず、文字列カーネルがタンパク質配列から生物学的に意味のある情報を抽出できるかどうかは不明です。
この研究では、配列内の各アミノ酸の頻度情報をコード化するタンパク質配列の PSS 表現と文字列カーネルの概念を組み合わせた重み付き PSS カーネル行列 (または W-PSSKM) を提案します。
これにより、タンパク質配列分類における他の多くのアプローチよりも優れた新しいカーネル関数が得られます。
提案された手法を評価するために広範な実験を実行します。
私たちの調査結果は、W-PSSKM が既存のベースラインや最先端の​​手法を大幅に上回り、分類精度で最大 45.1\% の向上を達成することを示しています。

要約(オリジナル)

Understanding the structural and functional characteristics of proteins are crucial for developing preventative and curative strategies that impact fields from drug discovery to policy development. An important and popular technique for examining how amino acids make up these characteristics of the protein sequences with position-specific scoring (PSS). While the string kernel is crucial in natural language processing (NLP), it is unclear if string kernels can extract biologically meaningful information from protein sequences, despite the fact that they have been shown to be effective in the general sequence analysis tasks. In this work, we propose a weighted PSS kernel matrix (or W-PSSKM), that combines a PSS representation of protein sequences, which encodes the frequency information of each amino acid in a sequence, with the notion of the string kernel. This results in a novel kernel function that outperforms many other approaches for protein sequence classification. We perform extensive experimentation to evaluate the proposed method. Our findings demonstrate that the W-PSSKM significantly outperforms existing baselines and state-of-the-art methods and achieves up to 45.1\% improvement in classification accuracy.

arxiv情報

著者 Sarwan Ali,Taslim Murad,Prakash Chourasia,Haris Mansoor,Imdad Ullah Khan,Pin-Yu Chen,Murray Patterson
発行日 2024-10-16 15:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク