CGRclust: Chaos Game Representation for Twin Contrastive Clustering of Unlabelled DNA Sequences

要約

この研究は、DNA 配列のカオス ゲーム表現 (CGR) の教師なし双対対照クラスタリングと畳み込みニューラル ネットワーク (CNN) の新しい組み合わせである CGRclust を提案します。
私たちの知る限り、CGRclust は、DNA 配列のデータセットをクラスタリングするための画像分類 (ここでは 2 次元 CGR 画像に適用) に教師なし学習を使用する最初の方法です。
CGRclust は、DNA 配列アラインメントや生物学的/分類学的ラベルを必要とせずに、教師なし双対対照学習を活用して独特の配列パターンを検出することにより、従来の配列分類法の限界を克服します。
CGRclust は、魚、菌類、原生生物のミトコンドリア ゲノム、ウイルスの全ゲノム アセンブリおよび合成 DNA 配列を含む、664 bp ~ 100 kbp の範囲の配列長を持つ 25 の多様なデータセットを正確にクラスタリングしました。
DNA 配列の最近の 3 つのクラスタリング手法 (DeLUCS、iDeLUCS、および MeShClust v3.0) と比較して、CGRclust は、魚類のミトコンドリア DNA ゲノムについてテストされた 4 つの分類レベルすべてにわたって 81.70% を超える精度を誇る唯一の手法です。
さらに、CGRclust は、すべてのウイルス ゲノム データセットにわたって一貫して優れたパフォーマンスを示します。
配列の長さ、ゲノムの数、クラスターの数、分類レベルの点で大幅に異なるこれら 25 のデータセットに対する CGRclust の高いクラスタリング精度は、その堅牢性、スケーラビリティ、および多用途性を示しています。

要約(オリジナル)

This study proposes CGRclust, a novel combination of unsupervised twin contrastive clustering of Chaos Game Representations (CGR) of DNA sequences, with convolutional neural networks (CNNs). To the best of our knowledge, CGRclust is the first method to use unsupervised learning for image classification (herein applied to two-dimensional CGR images) for clustering datasets of DNA sequences. CGRclust overcomes the limitations of traditional sequence classification methods by leveraging unsupervised twin contrastive learning to detect distinctive sequence patterns, without requiring DNA sequence alignment or biological/taxonomic labels. CGRclust accurately clustered twenty-five diverse datasets, with sequence lengths ranging from 664 bp to 100 kbp, including mitochondrial genomes of fish, fungi, and protists, as well as viral whole genome assemblies and synthetic DNA sequences. Compared with three recent clustering methods for DNA sequences (DeLUCS, iDeLUCS, and MeShClust v3.0.), CGRclust is the only method that surpasses 81.70% accuracy across all four taxonomic levels tested for mitochondrial DNA genomes of fish. Moreover, CGRclust also consistently demonstrates superior performance across all the viral genomic datasets. The high clustering accuracy of CGRclust on these twenty-five datasets, which vary significantly in terms of sequence length, number of genomes, number of clusters, and level of taxonomy, demonstrates its robustness, scalability, and versatility.

arxiv情報

著者 Fatemeh Alipour,Kathleen A. Hill,Lila Kari
発行日 2024-11-13 16:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, F.2.2, q-bio.GN パーマリンク