ViralVectors: Compact and Scalable Alignment-free Virome Feature Generation

要約

タイトル:ViralVectors:コンパクトかつ拡張可能なアライメントフリーのViromeフィーチャージェネレーション

要約:

– SARS-CoV-2のシーケンシングデータの量は、他のどのウイルスよりも数桁多い。今後も、多くの国でゲノム監視活動が行われるため、SARS-CoV-2や他のウイルスのデータ量は幾何学的に増え続ける。
– 多様なソースから来るデータ:アラインされた、アラインされていない、あるいは全ゲノムまたは特定の領域(例えばスパイク)に関する未加工の核酸またはアミノ酸のシーケンシングリード。
– 本研究では、軽量な「signature」と呼ばれる、読み取りマッピングやアセンブリで従来から使用されている「minimizers」を用いて、Viromeシーケンスデータからコンパクトなフィーチャーベクトルを生成する「ViralVectors」を提案する。
– 2.5MのSARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)、3KのCoronaviridaeスパイクシーケンス(より多様性のあるゲノムに対する堅牢性を示すため)、および鼻汁PCRテストから得られた4Kの生の全ゲノムシーケンスリードセット(未アセンブルされたリードの処理能力を示すため)を用いて、我々の手法を検証した。
– 結果は、ViralVectorsがほとんどの分類およびクラスタリングタスクで現行のベンチマークを上回っていることを示している。

要約(オリジナル)

The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight ‘signature’ of a sequence, used traditionally in assembly and read mapping — to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks.

arxiv情報

著者 Sarwan Ali,Prakash Chourasia,Zahra Tayebi,Babatunde Bello,Murray Patterson
発行日 2023-04-06 06:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.GN パーマリンク