要約
タイトル:ViralVectors:コンパクトで拡張性のあるアラインメントフリーのバイローム特徴生成
要約:
– SARS-CoV-2のシーケンシングデータの量は、他のどのウイルスよりも数桁大きくなっています。SARS-CoV-2や他のウイルスのゲノムサーベイランスの努力が多くの国で資金提供されることにより、これはジオメトリ的に成長し続けます。
– 我々は、適切かつタイムリーな意思決定を可能にするために、大量のシーケンスデータを処理するための方法が必要です。このようなデータは、アラインされた、アンアラインされた、あるいは未組み立ての全ゲノムまたは興味のある領域(例えばスパイク)に関連する生の核酸またはアミノ酸のシーケンシングリードからの異種源から得られます。
– 本研究では、Viromeシーケンシングデータからコンパクトな特徴ベクトル生成の\emph {ViralVectors}を提案し、効果的な下流解析を可能にします。この生成は、「minimizers」という軽量のシーケンス「シグネチャ」の一種に基づいています。これは、組み立てやリードマッピングで伝統的に使用されているが、私たちの知る限りでは、これをこの方法で利用する最初のものです。
– 私たちは、さまざまなタイプのシーケンシングデータで私たちのアプローチを検証しました。それらは、(a)2.5M SARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)、(b)3Kコロナウイルス科スパイクシーケンス(より遺伝子の多様性に対する堅牢性を示すため)、および(c)鼻腔PCRテストから取得した4Kの生のWGSリードセット(未組み立てのリードを処理する能力を示すため)です。
– 結果は、ViralVectorsがほとんどの分類およびクラスタリングタスクで現在のベンチマークを上回ることを示しました。
要約(オリジナル)
The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight ‘signature’ of a sequence, used traditionally in assembly and read mapping — to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks.
arxiv情報
著者 | Sarwan Ali,Prakash Chourasia,Zahra Tayebi,Babatunde Bello,Murray Patterson |
発行日 | 2023-04-07 11:58:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI