An Efficient Consolidation of Word Embedding and Deep Learning Techniques for Classifying Anticancer Peptides: FastText+BiLSTM

要約

抗がんペプチド (ACP) は、抗腫瘍特性を示すペプチドのグループです。
ACP は高い選択性と安全性を備えているため、がん予防における ACP の利用は、従来のがん治療薬の実行可能な代替手段となる可能性があります。
最近の科学の進歩により、正常細胞に悪影響を与えることなく目的の細胞を効率的に治療できるという利点があるペプチドベースの治療法に関心が集まっています。
しかし、ペプチド配列の数は急速に増加し続けるため、信頼性の高い正確な予測モデルを開発することは困難な課題となっています。
この研究における私たちの動機は、単語埋め込みと深層学習モデルの統合を使用して、抗がんペプチドを分類するための効率的なモデルを進歩させることです。
まず、ペプチド配列を抽出するための単語埋め込み技術として Word2Vec と FastText を評価します。
次に、単語埋め込みモデルの出力が深層学習アプローチ CNN、LSTM、BiLSTM に供給されます。
提案されたフレームワークの貢献を実証するために、文献、ACPs250 および Independent で広く使用されているデータセットに対して広範な実験が行われています。
実験結果は、提案されたモデルを使用すると、最先端の研究と比較して分類精度が向上することを示しています。
提案された組み合わせである FastText+BiLSTM は、ACPs250 データセットに対して 92.50% の精度を示し、Independent データセットに対して 96.15% の精度を示し、新しい最先端技術であると判断されます。

要約(オリジナル)

Anticancer peptides (ACPs) are a group of peptides that exhibite antineoplastic properties. The utilization of ACPs in cancer prevention can present a viable substitute for conventional cancer therapeutics, as they possess a higher degree of selectivity and safety. Recent scientific advancements generate an interest in peptide-based therapies which offer the advantage of efficiently treating intended cells without negatively impacting normal cells. However, as the number of peptide sequences continues to increase rapidly, developing a reliable and precise prediction model becomes a challenging task. In this work, our motivation is to advance an efficient model for categorizing anticancer peptides employing the consolidation of word embedding and deep learning models. First, Word2Vec and FastText are evaluated as word embedding techniques for the purpose of extracting peptide sequences. Then, the output of word embedding models are fed into deep learning approaches CNN, LSTM, BiLSTM. To demonstrate the contribution of proposed framework, extensive experiments are carried on widely-used datasets in the literature, ACPs250 and Independent. Experiment results show the usage of proposed model enhances classification accuracy when compared to the state-of-the-art studies. The proposed combination, FastText+BiLSTM, exhibits 92.50% of accuracy for ACPs250 dataset, and 96.15% of accuracy for Independent dataset, thence determining new state-of-the-art.

arxiv情報

著者 Onur Karakaya,Zeynep Hilal Kilimci
発行日 2023-09-21 13:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク