要約
GROVER、DNABERT2、Nucleotide TransformerなどのDNA言語モデルは、配列決定エラー、突然変異、実験室誘発ノイズを本質的に含むDNA配列上で動作し、モデルの性能に大きな影響を与える可能性がある。この問題の重要性にもかかわらず、DNA言語モデルのロバスト性については、まだほとんど研究されていない。本論文では、DNA言語モデルの脆弱性を系統的に分析するために、文字レベル(ヌクレオチド置換)、単語レベル(コドン修飾)、文レベル(逆翻訳ベースの変換)の様々な敵対的攻撃戦略を適用することにより、DNA分類におけるDNA言語モデルの頑健性を包括的に調査する。その結果、DNA言語モデルは敵対的攻撃の影響を非常に受けやすく、大幅な性能劣化につながることが実証された。さらに、ロバスト性と分類精度の両方を向上させる防御メカニズムとして、敵対的な学習方法を検討した。本研究は、DNA言語モデルの限界を明らかにし、バイオインフォマティクスにおけるロバスト性の必要性を強調している。
要約(オリジナル)
DNA Language Models, such as GROVER, DNABERT2 and the Nucleotide Transformer, operate on DNA sequences that inherently contain sequencing errors, mutations, and laboratory-induced noise, which may significantly impact model performance. Despite the importance of this issue, the robustness of DNA language models remains largely underexplored. In this paper, we comprehensivly investigate their robustness in DNA classification by applying various adversarial attack strategies: the character (nucleotide substitutions), word (codon modifications), and sentence levels (back-translation-based transformations) to systematically analyze model vulnerabilities. Our results demonstrate that DNA language models are highly susceptible to adversarial attacks, leading to significant performance degradation. Furthermore, we explore adversarial training method as a defense mechanism, which enhances both robustness and classification accuracy. This study highlights the limitations of DNA language models and underscores the necessity of robustness in bioinformatics.
arxiv情報
著者 | Hyunwoo Yoo,Haebin Shin,Kaidi Xu,Gail Rosen |
発行日 | 2025-03-03 02:38:52+00:00 |
arxivサイト | arxiv_id(pdf) |