要約
メタゲノムプロファイリングとして知られるサンプル内の微生物種を迅速かつ正確に識別する能力は、ヘルスケアから環境科学まで、さまざまな分野で重要です。
このホワイトペーパーでは、ベースコールと呼ばれるプロセスを決定することと、ヌクレオチド配列を決定することと並行して並行してシーケンスデバイスから来るプロファイルのプロファイルを紹介します。
ベースコールと分類の損失が個別に戻ってきて、共有レイヤーにモデルの重みが組み合わされ、事前に構成されたランキング戦略がトップK種の精度を可能にし、ユーザーが種を識別する際のより高い精度または高速を選択できるようにする新しい損失戦略を導入します。
分類精度は最先端の精度を達成し、最先端のバイナリ分類子の結果を満たし、それを超えており、ick細菌データセットの合計17のゲノムの中でトップ1/3種を特定する際に平均92.5%/98.9%の精度を達成しました。
ここで紹介する研究は、DNA配列を正しいゲノムに一致させるボトルネックステップを加速することにより、メタゲノムプロファイリングの将来の研究に影響を与えます。
要約(オリジナル)
The ability to quickly and accurately identify microbial species in a sample, known as metagenomic profiling, is critical across various fields, from healthcare to environmental science. This paper introduces a novel method to profile signals coming from sequencing devices in parallel with determining their nucleotide sequences, a process known as basecalling, via a multi-objective deep neural network for simultaneous basecalling and multi-class genome classification. We introduce a new loss strategy where losses for basecalling and classification are back-propagated separately, with model weights combined for the shared layers, and a pre-configured ranking strategy allowing top-K species accuracy, giving users flexibility to choose between higher accuracy or higher speed at identifying the species. We achieve state-of-the-art basecalling accuracies, while classification accuracies meet and exceed the results of state-of-the-art binary classifiers, attaining an average of 92.5%/98.9% accuracy at identifying the top-1/3 species among a total of 17 genomes in the Wick bacterial dataset. The work presented here has implications for future studies in metagenomic profiling by accelerating the bottleneck step of matching the DNA sequence to the correct genome.
arxiv情報
著者 | Riselda Kodra,Hadjer Benmeziane,Irem Boybat,William Andrew Simon |
発行日 | 2025-04-09 17:30:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google