Predicting Transcription Factor Binding Sites using Transformer based Capsule Network

要約

転写因子の結合部位を予測することは、転写因子が遺伝子発現をどのように調節するのか、またこの調節が治療目的でどのように調節されるのかを理解するために重要です。
過去数年間にこの問題に対処する重要な取り組みが行われてきましたが、まだ改善の余地があります。
この点に関して、変圧器ベースのカプセルネットワーク、すなわち、
DNABERT-Cap は、ChIP-seq データセットをマイニングする転写因子結合部位を予測するためにこの研究で提案されています。
DNABERT-Cap は、多数のゲノム DNA 配列を使用して事前トレーニングされた双方向エンコーダーで、最終予測を担当するカプセル層を備えています。
提案されたモデルは、双方向エンコーダーとカプセル層の両方、および畳み込みおよび双方向長期短期記憶層を含む機能の共同最適化を使用して、転写因子結合部位の予測子を構築します。
提案されたアプローチの効率を評価するために、5 つの細胞株のベンチマーク ChIP-seq データセットを使用します。
A549、GM12878、Hep-G2、H1-hESC、Hela は ENCODE リポジトリで入手可能です。
結果は、受信者動作特性曲線スコアの下の平均面積が、このような 5 つの細胞株すべてで 0.91 を超えていることを示しています。
DNABERT-Cap は、既存の最先端の深層学習ベースの予測子とも比較されます。
DeepARC、DeepTF、CNN-Zeng、DeepBind を上回っていると考えられています。

要約(オリジナル)

Prediction of binding sites for transcription factors is important to understand how they regulate gene expression and how this regulation can be modulated for therapeutic purposes. Although in the past few years there are significant works addressing this issue, there is still space for improvement. In this regard, a transformer based capsule network viz. DNABERT-Cap is proposed in this work to predict transcription factor binding sites mining ChIP-seq datasets. DNABERT-Cap is a bidirectional encoder pre-trained with large number of genomic DNA sequences, empowered with a capsule layer responsible for the final prediction. The proposed model builds a predictor for transcription factor binding sites using the joint optimisation of features encompassing both bidirectional encoder and capsule layer, along with convolutional and bidirectional long-short term memory layers. To evaluate the efficiency of the proposed approach, we use a benchmark ChIP-seq datasets of five cell lines viz. A549, GM12878, Hep-G2, H1-hESC and Hela, available in the ENCODE repository. The results show that the average area under the receiver operating characteristic curve score exceeds 0.91 for all such five cell lines. DNABERT-Cap is also compared with existing state-of-the-art deep learning based predictors viz. DeepARC, DeepTF, CNN-Zeng and DeepBind, and is seen to outperform them.

arxiv情報

著者 Nimisha Ghosh,Daniele Santoni,Indrajit Saha,Giovanni Felici
発行日 2023-12-28 18:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク