Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics

要約

mRNAベースのワクチンは、製薬業界で大きな焦点となっています。
mRNAのコーディングシーケンスと、翻訳されていない領域(UTR)は、ワクチンの有効性を集合的に決定する翻訳効率、安定性、分解、およびその他の要因に強く影響を与える可能性があります。
ただし、これらの特性のmRNA配列を最適化すると、複雑な課題のままです。
既存の深い学習モデルは、多くの場合、UTRを見落とすコード領域の最適化のみに焦点を当てています。
これらの課題に対処するために、構造化された状態空間ベースのハイブリッドモデルであるHelix-MRNAを提示します。
最初のトレーニング前に加えて、2番目のトレーニング前の段階では、高品質のデータでモデルを専門とすることができます。
コドン分離を伴うmRNA配列の単一ヌクレオチドトークン化を採用しており、元のmRNA配列からの以前の生物学的および構造情報が失われないようにします。
私たちのモデルであるHelix-MRNAは、UTRとコーディング領域のプロパティの両方を分析する際に既存の方法を上回ります。
既存の基礎モデルのパラメーターの10%のみを使用しながら、現在のアプローチよりも6倍長いシーケンスを処理できます。
その予測機能は、すべてのmRNA領域に拡張されます。
モデル(https://github.com/helicalai/helical)とモデルの重み(https://huggingface.co/helical-ai/helix-mrna)をオープンソースします。

要約(オリジナル)

mRNA-based vaccines have become a major focus in the pharmaceutical industry. The coding sequence as well as the Untranslated Regions (UTRs) of an mRNA can strongly influence translation efficiency, stability, degradation, and other factors that collectively determine a vaccine’s effectiveness. However, optimizing mRNA sequences for those properties remains a complex challenge. Existing deep learning models often focus solely on coding region optimization, overlooking the UTRs. We present Helix-mRNA, a structured state-space-based and attention hybrid model to address these challenges. In addition to a first pre-training, a second pre-training stage allows us to specialise the model with high-quality data. We employ single nucleotide tokenization of mRNA sequences with codon separation, ensuring prior biological and structural information from the original mRNA sequence is not lost. Our model, Helix-mRNA, outperforms existing methods in analysing both UTRs and coding region properties. It can process sequences 6x longer than current approaches while using only 10% of the parameters of existing foundation models. Its predictive capabilities extend to all mRNA regions. We open-source the model (https://github.com/helicalAI/helical) and model weights (https://huggingface.co/helical-ai/helix-mRNA).

arxiv情報

著者 Matthew Wood,Mathieu Klop,Maxime Allard
発行日 2025-02-19 14:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.GN パーマリンク