ViralVectors: Compact and Scalable Alignment-free Virome Feature Generation

要約

タイトル:ViralVectors:コンパクトで拡張性のあるアラインメントフリーのバイローム特徴生成

要約:

– SARS-CoV-2のシーケンシングデータの量は、他のどのウイルスよりも数桁大きくなっています。SARS-CoV-2や他のウイルスのゲノムサーベイランスの努力が多くの国で資金提供されることにより、これはジオメトリ的に成長し続けます。
– 我々は、適切かつタイムリーな意思決定を可能にするために、大量のシーケンスデータを処理するための方法が必要です。このようなデータは、アラインされた、アンアラインされた、あるいは未組み立ての全ゲノムまたは興味のある領域(例えばスパイク)に関連する生の核酸またはアミノ酸のシーケンシングリードからの異種源から得られます。
– 本研究では、Viromeシーケンシングデータからコンパクトな特徴ベクトル生成の\emph {ViralVectors}を提案し、効果的な下流解析を可能にします。この生成は、「minimizers」という軽量のシーケンス「シグネチャ」の一種に基づいています。これは、組み立てやリードマッピングで伝統的に使用されているが、私たちの知る限りでは、これをこの方法で利用する最初のものです。
– 私たちは、さまざまなタイプのシーケンシングデータで私たちのアプローチを検証しました。それらは、(a)2.5M SARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)、(b)3Kコロナウイルス科スパイクシーケンス(より遺伝子の多様性に対する堅牢性を示すため)、および(c)鼻腔PCRテストから取得した4Kの生のWGSリードセット(未組み立てのリードを処理する能力を示すため)です。
– 結果は、ViralVectorsがほとんどの分類およびクラスタリングタスクで現在のベンチマークを上回ることを示しました。

要約(オリジナル)

The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight ‘signature’ of a sequence, used traditionally in assembly and read mapping — to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks.

arxiv情報

著者 Sarwan Ali,Prakash Chourasia,Zahra Tayebi,Babatunde Bello,Murray Patterson
発行日 2023-04-07 11:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.GN パーマリンク