VADA: a Data-Driven Simulator for Nanopore Sequencing


ナノポア シーケンシングは、低コストで長い DNA 配列をリアルタイムに解析する機能を提供し、がんの早期検出などの新しいアプリケーションを可能にします。
ナノポア測定の複雑な性質と、グラウンド トゥルース データセットの取得コストが高いため、ナノポア シミュレーターが必要です。
その代わりに、我々は、自己回帰潜在変数モデルに基づいてナノ細孔をシミュレートするための純粋にデータ駆動型の方法である VADA を提案します。
DNA のサブシーケンスを埋め込み、崩壊する条件付けの課題に対処する前に条件式を導入します。
私たちは、実験的なナノ細孔データに対して、モデルが競争力のあるシミュレーション パフォーマンスを達成することを経験的に示しています。
さらに、DNA ラベルを予測する有益な潜在表現を学習したことを示します。
我々は、DNA ラベルを超えた他の興味深い生物学的因子が、そのような学習された潜在表現から潜在的に抽出できる可能性があると仮説を立てています。


Nanopore sequencing offers the ability for real-time analysis of long DNA sequences at a low cost, enabling new applications such as early detection of cancer. Due to the complex nature of nanopore measurements and the high cost of obtaining ground truth datasets, there is a need for nanopore simulators. Existing simulators rely on handcrafted rules and parameters and do not learn an internal representation that would allow for analysing underlying biological factors of interest. Instead, we propose VADA, a purely data-driven method for simulating nanopores based on an autoregressive latent variable model. We embed subsequences of DNA and introduce a conditional prior to address the challenge of a collapsing conditioning. We introduce an auxiliary regressor on the latent variable to encourage our model to learn an informative latent representation. We empirically demonstrate that our model achieves competitive simulation performance on experimental nanopore data. Moreover, we show we have learned an informative latent representation that is predictive of the DNA labels. We hypothesize that other biological factors of interest, beyond the DNA labels, can potentially be extracted from such a learned latent representation.


著者 Jonas Niederle,Simon Koop,Marc Pagès-Gallego,Vlado Menkovski
発行日 2024-06-26 16:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク