Latent Diffusion Models for Controllable RNA Sequence Generation

要約

この研究では、可変長の個別の RNA 配列を生成および最適化するための潜在拡散モデルである RNA 拡散を紹介します。
RNA は DNA とタンパク質の間の重要な仲介者であり、高度な配列多様性と複雑な三次元構造を示し、幅広い機能をサポートします。
私たちは、事前トレーニングされた BERT タイプのモデルを利用して、生の RNA 配列をトークンレベルの生物学的に意味のある表現にエンコードします。
Query Transformer は、これらの潜在変数から RNA 配列を再構築するように訓練された自己回帰デコーダーを使用して、そのような表現を固定長の潜在ベクトルのセットに圧縮するために使用されます。
次に、この潜在空間内での連続拡散モデルを開発します。
最適化を可能にするために、RNA の機能特性の代用である報酬モデルの勾配を逆拡散プロセスに統合し、それによって高い報酬スコアを持つ RNA を生成します。
実験結果により、RNA拡散により、さまざまな生物学的測定基準にわたる自然な分布と一致する非コードRNAが生成されることが確認されています。
さらに、mRNA 5′ 非翻訳領域 (5′-UTR) の拡散モデルを微調整し、高い翻訳効率が得られるように配列を最適化します。
当社の誘導拡散モデルは、高い平均リボソーム負荷 (MRL) と翻訳効率 (TE) を備えた多様な 5′-UTR を効果的に生成し、報酬と構造安定性のトレードオフのバランスにおいてベースラインを上回ります。
私たちの発見は、RNA 配列機能研究と治療用 RNA 設計を前進させる可能性を秘めています。

要約(オリジナル)

This work presents RNAdiffusion, a latent diffusion model for generating and optimizing discrete RNA sequences of variable lengths. RNA is a key intermediary between DNA and protein, exhibiting high sequence diversity and complex three-dimensional structures to support a wide range of functions. We utilize pretrained BERT-type models to encode raw RNA sequences into token-level, biologically meaningful representations. A Query Transformer is employed to compress such representations into a set of fixed-length latent vectors, with an autoregressive decoder trained to reconstruct RNA sequences from these latent variables. We then develop a continuous diffusion model within this latent space. To enable optimization, we integrate the gradients of reward models–surrogates for RNA functional properties–into the backward diffusion process, thereby generating RNAs with high reward scores. Empirical results confirm that RNAdiffusion generates non-coding RNAs that align with natural distributions across various biological metrics. Further, we fine-tune the diffusion model on mRNA 5′ untranslated regions (5′-UTRs) and optimize sequences for high translation efficiencies. Our guided diffusion model effectively generates diverse 5′-UTRs with high Mean Ribosome Loading (MRL) and Translation Efficiency (TE), outperforming baselines in balancing rewards and structural stability trade-off. Our findings hold potential for advancing RNA sequence-function research and therapeutic RNA design.

arxiv情報

著者 Kaixuan Huang,Yukang Yang,Kaidi Fu,Yanyi Chu,Le Cong,Mengdi Wang
発行日 2024-10-02 16:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク