GENERator: A Long-Context Generative Genomic Foundation Model

要約

DNAシーケンス技術の進歩により、ゲノムシーケンスをデコードする能力が大幅に向上しました。
ただし、これらのシーケンスの予測と解釈は、遺伝物質の複雑な性質のために困難なままです。
大規模な言語モデル(LLM)は、生物学的配列分析の新しい機会を導入しました。
ゲノム言語モデルの最近の開発により、DNA配列の解読におけるLLMの可能性が強調されています。
それにもかかわらず、既存のモデルは、主にモデルの構造とトレーニングデータスケールの制約が原因で、堅牢性とアプリケーションの範囲の制限に直面することがよくあります。
これらの制限に対処するために、98K塩基対(BP)と1.2Bのパラメーターのコンテキスト長を備えた生成ゲノム基礎モデルであるジェネレーターを提示します。
386b bpの真核DNAで構成される広大なデータセットで訓練されたジェネレーターは、確立されたベンチマークと新たに提案されたベンチマークの両方で最先端のパフォーマンスを示しています。
このモデルは、分子生物学の中心的な教義に準拠しており、既知のファミリーに構造的に類似したタンパク質に変換されるタンパク質コーディング配列を正確に生成します。
また、特に特定のアクティビティプロファイルを備えたエンハンサー配列の迅速な応答性生成を通じて、順番の最適化において大きな約束を示しています。
これらの機能は、ジェネレーターをゲノム研究とバイオテクノロジーの進歩のための極めて重要なツールとして配置し、複雑な生物学的システムを解釈および予測する能力を高め、正確なゲノム介入を可能にします。
実装の詳細と補足リソースは、https://github.com/generteam/generatorで入手できます。

要約(オリジナル)

Advancements in DNA sequencing technologies have significantly improved our ability to decode genomic sequences. However, the prediction and interpretation of these sequences remain challenging due to the intricate nature of genetic material. Large language models (LLMs) have introduced new opportunities for biological sequence analysis. Recent developments in genomic language models have underscored the potential of LLMs in deciphering DNA sequences. Nonetheless, existing models often face limitations in robustness and application scope, primarily due to constraints in model structure and training data scale. To address these limitations, we present GENERator, a generative genomic foundation model featuring a context length of 98k base pairs (bp) and 1.2B parameters. Trained on an expansive dataset comprising 386B bp of eukaryotic DNA, the GENERator demonstrates state-of-the-art performance across both established and newly proposed benchmarks. The model adheres to the central dogma of molecular biology, accurately generating protein-coding sequences that translate into proteins structurally analogous to known families. It also shows significant promise in sequence optimization, particularly through the prompt-responsive generation of enhancer sequences with specific activity profiles. These capabilities position the GENERator as a pivotal tool for genomic research and biotechnological advancement, enhancing our ability to interpret and predict complex biological systems and enabling precise genomic interventions. Implementation details and supplementary resources are available at https://github.com/GenerTeam/GENERator.

arxiv情報

著者 Wei Wu,Qiuyi Li,Mingyang Li,Kun Fu,Fuli Feng,Jieping Ye,Hui Xiong,Zheng Wang
発行日 2025-04-01 03:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.GN パーマリンク