Embed-Search-Align: DNA Sequence Alignment using Transformer Models

要約

DNA 配列アラインメントには、短い DNA リードを広範な参照ゲノム上の最も可能性の高い位置に割り当てることが含まれます。
このプロセスは、バリアントコーリング、トランスクリプトミクス、エピゲノミクスなどのさまざまなゲノム解析にとって重要です。
数十年かけて洗練された従来の手法は、ゲノムインデックス作成とそれに続く、特定のリードの可能性の高い位置を特定するための効率的な検索という 2 つのステップでこの課題に取り組んでいます。
テキストを埋め込みにエンコードするラージ言語モデル (LLM) の成功に基づいて、最近の取り組みでは、同じ Transformer アーキテクチャが DNA 配列の数値表現を生成できるかどうかを調査しています。
このようなモデルは、コーディング領域と非コーディング領域の検出や、エンハンサー配列やプロモーター配列の同定など、短い DNA 配列の分類を伴うタスクで早期に有望であることが示されています。
ただし、配列分類タスクのパフォーマンスは配列アライメントには反映されません。すべてのリードを正常にアライメントするにはゲノム全体の検索を実行する必要があります。
私たちは、この未解決の問題を Embed-Search-Align タスクとして枠組み化することで解決します。
このフレームワークでは、新しいエンコーダー モデル DNA-ESA がリファレンスのリードとフラグメントの表現を生成し、リードとフラグメントの距離がアライメントの代用として使用される共有ベクトル空間に投影されます。
特に、DNA-ESA は、(1) DNA 配列表現の自己教師ありトレーニングのための対照損失、豊富な配列レベルの埋め込みを容易にする、および (2) 世界規模でのフラグメント全体の検索を可能にする DNA ベクター ストアを導入します。
DNA-ESA は、250 長のリードを 3 ギガ塩基 (単一半数体) のヒト参照ゲノムにアライメントする際に 97% 以上の精度を示し、最近の 6 つの DNA-Transformer モデル ベースラインのパフォーマンスをはるかに上回り、染色体および種を越えたタスクの伝達を示します。

要約(オリジナル)

DNA sequence alignment involves assigning short DNA reads to the most probable locations on an extensive reference genome. This process is crucial for various genomic analyses, including variant calling, transcriptomics, and epigenomics. Conventional methods, refined over decades, tackle this challenge in two steps: genome indexing followed by efficient search to locate likely positions for given reads. Building on the success of Large Language Models (LLM) in encoding text into embeddings, where the distance metric captures semantic similarity, recent efforts have explored whether the same Transformer architecture can produce numerical representations for DNA sequences. Such models have shown early promise in tasks involving classification of short DNA sequences, such as the detection of coding vs non-coding regions, as well as the identification of enhancer and promoter sequences. Performance at sequence classification tasks does not, however, translate to sequence alignment, where it is necessary to conduct a genome-wide search to successfully align every read. We address this open problem by framing it as an Embed-Search-Align task. In this framework, a novel encoder model DNA-ESA generates representations of reads and fragments of the reference, which are projected into a shared vector space where the read-fragment distance is used as surrogate for alignment. In particular, DNA-ESA introduces: (1) Contrastive loss for self-supervised training of DNA sequence representations, facilitating rich sequence-level embeddings, and (2) a DNA vector store to enable search across fragments on a global scale. DNA-ESA is >97% accurate when aligning 250-length reads onto a human reference genome of 3 gigabases (single-haploid), far exceeds the performance of 6 recent DNA-Transformer model baselines and shows task transfer across chromosomes and species.

arxiv情報

著者 Pavan Holur,K. C. Enevoldsen,Shreyas Rajesh,Lajoyce Mboning,Thalia Georgiou,Louis-S. Bouchard,Matteo Pellegrini,Vwani Roychowdhury
発行日 2024-04-24 01:34:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.GN パーマリンク