GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in Metagenomic Assembly

要約

反復 DNA (リピート) は、正確かつ効率的なゲノム構築と配列アラインメントに重大な課題をもたらします。
これは特にメタゲノム データに当てはまります。水平遺伝子伝達、遺伝子重複、遺伝子の喪失/獲得などのゲノム ダイナミクスにより、メタゲノム コミュニティからの正確なゲノム構築が複雑になります。
リピートの検出は、これらの課題を克服するための重要な第一歩です。
この問題に対処するために、我々は、自己教師あり学習フレームワーク内でグラフ ニューラル ネットワーク (GNN) を介してアセンブリ グラフの構造を活用し、DNA 配列を反復カテゴリーと非反復カテゴリーに分類する新しいアプローチである GraSSRep を提案します。
具体的には、この問題をメタゲノムアセンブリグラフ内のノード分類タスクとして組み立てます。
自己監視型の方法で、高精度 (ただし再現率は低い) ヒューリスティックに依存して、少数のノードに対して疑似ラベルを生成します。
次に、それらの擬似ラベルを使用して GNN 埋め込みとランダム フォレスト分類器をトレーニングし、ラベルを残りのノードに伝播します。
このようにして、GraSSRep はシーケンス機能と事前定義され学習されたグラフ機能を組み合わせて、繰り返し検出における最先端のパフォーマンスを実現します。
私たちは、シミュレートされた合成メタゲノム データセットを使用してメソッドを評価します。
シミュレートされたデータの結果は、繰り返し属性に対する GraSSRep の堅牢性を強調し、繰り返しシーケンスの複雑さを処理する際のその有効性を示しています。
さらに、合成メタゲノム データセットを用いた実験では、グラフ構造と GNN を組み込むことで検出パフォーマンスが向上することが明らかになりました。
最後に、比較分析において、GraSSRep は精度と再現率の点で既存のリピート検出ツールよりも優れています。

要約(オリジナル)

Repetitive DNA (repeats) poses significant challenges for accurate and efficient genome assembly and sequence alignment. This is particularly true for metagenomic data, where genome dynamics such as horizontal gene transfer, gene duplication, and gene loss/gain complicate accurate genome assembly from metagenomic communities. Detecting repeats is a crucial first step in overcoming these challenges. To address this issue, we propose GraSSRep, a novel approach that leverages the assembly graph’s structure through graph neural networks (GNNs) within a self-supervised learning framework to classify DNA sequences into repetitive and non-repetitive categories. Specifically, we frame this problem as a node classification task within a metagenomic assembly graph. In a self-supervised fashion, we rely on a high-precision (but low-recall) heuristic to generate pseudo-labels for a small proportion of the nodes. We then use those pseudo-labels to train a GNN embedding and a random forest classifier to propagate the labels to the remaining nodes. In this way, GraSSRep combines sequencing features with pre-defined and learned graph features to achieve state-of-the-art performance in repeat detection. We evaluate our method using simulated and synthetic metagenomic datasets. The results on the simulated data highlight our GraSSRep’s robustness to repeat attributes, demonstrating its effectiveness in handling the complexity of repeated sequences. Additionally, our experiments with synthetic metagenomic datasets reveal that incorporating the graph structure and the GNN enhances our detection performance. Finally, in comparative analyses, GraSSRep outperforms existing repeat detection tools with respect to precision and recall.

arxiv情報

著者 Ali Azizpour,Advait Balaji,Todd J. Treangen,Santiago Segarra
発行日 2024-02-14 18:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク