TargetCall: Eliminating the Wasted Computation in Basecalling via Pre-Basecalling Filtering

要約

ベースコーリングは、ナノポアシーケンサーの生のシグナルがヌクレオチド配列、つまりリードに変換されるナノポアシークエンシング解析において不可欠なステップです。
最先端のベースコーラーは、複雑な深層学習モデルを採用して、高いベースコーリング精度を実現します。
これにより、ベースコールの計算効率が低下し、メモリを多く消費するようになります。
ゲノム解析パイプライン全体のボトルネックになっています。
ただし、多くのアプリケーションでは、リードの大部分が目的の参照ゲノム (つまり、ターゲット参照) と一致しないため、ゲノミクス パイプラインの後続のステップで破棄され、ベースコール計算が無駄になります。
この問題を解決するために、ベースコールでの無駄な計算を排除する最初のベースコール前フィルタである TargetCall を提案します。
TargetCall の重要なアイデアは、ベースコールの前にターゲット参照と一致しない読み取り (つまり、ターゲット外の読み取り) を破棄することです。
TargetCall は 2 つの主要コンポーネントで構成されます。(1) LightCall。ノイズの多い読み取りを生成する軽量のニューラル ネットワーク ベースコーラー。
(2) 類似性チェック。これらのノイズの多いリードをターゲット参照と照合することで、オンターゲットまたはオフターゲットとしてラベル付けします。
TargetCall は、ベースコールの前に、ターゲット外の読み取りをすべて除外することを目的としています。
高精度ですが遅いベースコールは、ノイズの多い読み取りがオンターゲットとしてラベル付けされた生の信号に対してのみ実行されます。
実際のデータとシミュレートされたデータの両方を使用した徹底的な実験評価により、TargetCall は 1) オンターゲット読み取りを維持する高感度を維持しながらエンドツーエンドのベースコール パフォーマンスを向上させ、2) ダウンストリーム分析で高精度を維持し、3) 正確にフィルタリングすることを示しています。
オフターゲット読み取りの 94.71% まで向上し、4) 以前の研究と比較して、より優れたパフォーマンス、スループット、感度、精度、および汎用性を達成します。
https://github.com/CMU-SAFARI/TargetCall で TargetCall をオープンソースにしています

要約(オリジナル)

Basecalling is an essential step in nanopore sequencing analysis where the raw signals of nanopore sequencers are converted into nucleotide sequences, i.e., reads. State-of-the-art basecallers employ complex deep learning models to achieve high basecalling accuracy. This makes basecalling computationally-inefficient and memory-hungry; bottlenecking the entire genome analysis pipeline. However, for many applications, the majority of reads do no match the reference genome of interest (i.e., target reference) and thus are discarded in later steps in the genomics pipeline, wasting the basecalling computation. To overcome this issue, we propose TargetCall, the first pre-basecalling filter to eliminate the wasted computation in basecalling. TargetCall’s key idea is to discard reads that will not match the target reference (i.e., off-target reads) prior to basecalling. TargetCall consists of two main components: (1) LightCall, a lightweight neural network basecaller that produces noisy reads; and (2) Similarity Check, which labels each of these noisy reads as on-target or off-target by matching them to the target reference. TargetCall aims to filter out all off-target reads before basecalling. The highly-accurate but slow basecalling is performed only on the raw signals whose noisy reads are labeled as on-target. Our thorough experimental evaluations using both real and simulated data show that TargetCall 1) improves the end-to-end basecalling performance while maintaining high sensitivity in keeping on-target reads, 2) maintains high accuracy in downstream analysis, 3) precisely filters out up to 94.71% of off-target reads, and 4) achieves better performance, throughput, sensitivity, precision, and generality compared to prior works. We open-source TargetCall at https://github.com/CMU-SAFARI/TargetCall

arxiv情報

著者 Meryem Banu Cavlak,Gagandeep Singh,Mohammed Alser,Can Firtina,Joël Lindegger,Mohammad Sadrosadati,Nika Mansouri Ghiasi,Can Alkan,Onur Mutlu
発行日 2023-09-14 15:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク