要約
タイトル:ViralVectors:コンパクトかつ拡張可能なアライメントフリーのViromeフィーチャージェネレーション
要約:
– SARS-CoV-2のシーケンシングデータの量は、他のどのウイルスよりも数桁多い。今後も、多くの国でゲノム監視活動が行われるため、SARS-CoV-2や他のウイルスのデータ量は幾何学的に増え続ける。
– 多様なソースから来るデータ:アラインされた、アラインされていない、あるいは全ゲノムまたは特定の領域(例えばスパイク)に関する未加工の核酸またはアミノ酸のシーケンシングリード。
– 本研究では、軽量な「signature」と呼ばれる、読み取りマッピングやアセンブリで従来から使用されている「minimizers」を用いて、Viromeシーケンスデータからコンパクトなフィーチャーベクトルを生成する「ViralVectors」を提案する。
– 2.5MのSARS-CoV-2スパイクシーケンス(スケーラビリティを示すため)、3KのCoronaviridaeスパイクシーケンス(より多様性のあるゲノムに対する堅牢性を示すため)、および鼻汁PCRテストから得られた4Kの生の全ゲノムシーケンスリードセット(未アセンブルされたリードの処理能力を示すため)を用いて、我々の手法を検証した。
– 結果は、ViralVectorsがほとんどの分類およびクラスタリングタスクで現行のベンチマークを上回っていることを示している。
要約(オリジナル)
The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight ‘signature’ of a sequence, used traditionally in assembly and read mapping — to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks.
arxiv情報
著者 | Sarwan Ali,Prakash Chourasia,Zahra Tayebi,Babatunde Bello,Murray Patterson |
発行日 | 2023-04-06 06:46:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI