DiscDiff: Latent Diffusion Model for DNA Sequence Generation

要約

この論文では、DNA 配列生成のための新しいフレームワークを紹介します。このフレームワークは、2 つの重要なコンポーネントで構成されます。Discret DNA 配列を生成するために調整された潜在拡散モデル (LDM) である DiscDiff と、これらの配列を改良するために設計されたトレーニング後のアルゴリズムである Absorb-Escape です。
Absorb-Escape は、潜在空間と入力空間の間の変換プロセスに固有の「ラウンド エラー」を修正することにより、生成されたシーケンスのリアリズムを強化します。
私たちのアプローチは、DNA 配列生成における新しい標準を設定するだけでなく、短い DNA 配列と長い DNA 配列の両方の生成において、既存の拡散モデルよりも優れたパフォーマンスを実証します。
さらに、15 種からの 160,000 の固有の配列を網羅する、DNA 生成のための初の包括的な複数種のデータセットである EPD-GenDNA を紹介します。
私たちは、この研究が DNA の生成モデリングを前進させ、遺伝子治療やタンパク質生産に潜在的な影響を与えることを期待しています。

要約(オリジナル)

This paper introduces a novel framework for DNA sequence generation, comprising two key components: DiscDiff, a Latent Diffusion Model (LDM) tailored for generating discrete DNA sequences, and Absorb-Escape, a post-training algorithm designed to refine these sequences. Absorb-Escape enhances the realism of the generated sequences by correcting `round errors’ inherent in the conversion process between latent and input spaces. Our approach not only sets new standards in DNA sequence generation but also demonstrates superior performance over existing diffusion models, in generating both short and long DNA sequences. Additionally, we introduce EPD-GenDNA, the first comprehensive, multi-species dataset for DNA generation, encompassing 160,000 unique sequences from 15 species. We hope this study will advance the generative modelling of DNA, with potential implications for gene therapy and protein production.

arxiv情報

著者 Zehui Li,Yuhao Ni,William A V Beardall,Guoxuan Xia,Akashaditya Das,Guy-Bart Stan,Yiren Zhao
発行日 2024-04-17 16:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク