Bridging Sequence-Structure Alignment in RNA Foundation Models

要約

RNA 配列と基礎モデル (FM) の構造の間のアライメントは、まだ徹底的に調査されていません。
既存の FM は、配列と構造のアライメントを確立するのに苦労しており、RNA 配列と構造の間のゲノム情報の自由な流れを妨げています。
この研究では、構造コンテキスト化されたモデリングに基づいて二次構造に関して RNA 配列を整列させるように訓練された RNA FM である OmniGenome を紹介します。
このアラインメントにより、多用途の入力および出力モダリティ、つまり配列および/または構造を入力/出力としてサポートする柔軟な RNA モデリング パラダイムを利用することにより、配列と構造間の自由かつ双方向のマッピングが可能になります。
OmniGenome の Seq2Str および Str2Seq マッピング能力を評価するためのケーススタディとして、RNA 設計とゼロショット二次構造予測を実装します。
EternaV2 ベンチマークの結果によると、OmniGenome はパズルの 74% を解決しましたが、既存の FM は配列構造のアライメントの見落としにより、パズルの最大 3% しか解決できませんでした。
当社では、4 つの包括的なインシリコ ゲノム モデリング ベンチマークを活用して、さまざまなゲノム下流タスク全体のパフォーマンスを評価しています。その結果、OmniGenome は、DNA ゲノムに関するトレーニングがなくても、RNA および DNA ベンチマークで最先端のパフォーマンスを達成していることが示されています。

要約(オリジナル)

The alignment between RNA sequences and structures in foundation models (FMs) has yet to be thoroughly investigated. Existing FMs have struggled to establish sequence-structure alignment, hindering the free flow of genomic information between RNA sequences and structures. In this study, we introduce OmniGenome, an RNA FM trained to align RNA sequences with respect to secondary structures based on structure-contextualised modelling. The alignment enables free and bidirectional mappings between sequences and structures by utilising the flexible RNA modelling paradigm that supports versatile input and output modalities, i.e., sequence and/or structure as input/output. We implement RNA design and zero-shot secondary structure prediction as case studies to evaluate the Seq2Str and Str2Seq mapping capacity of OmniGenome. Results on the EternaV2 benchmark show that OmniGenome solved 74% of puzzles, whereas existing FMs only solved up to 3% of the puzzles due to the oversight of sequence-structure alignment. We leverage four comprehensive in-silico genome modelling benchmarks to evaluate performance across a diverse set of genome downstream tasks, where the results show that OmniGenome achieves state-of-the-art performance on RNA and DNA benchmarks, even without any training on DNA genomes.

arxiv情報

著者 Heng Yang,Renzhi Chen,Ke Li
発行日 2024-12-13 14:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.GN パーマリンク