RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks

要約

RNA は最近、興味深い低分子薬剤標的として認識されていますが、それを最大限に活用する前に、多くの課題に対処する必要があります。
これは、その構造と機能についての理解を深める必要性を強調しています。
長年にわたって、配列決定技術は膨大な量の標識されていない RNA データを生成してきましたが、これには大きな可能性が秘められています。
タンパク質言語モデルの成功を動機として、RNA の隠されたコードを明らかにするために RiboNucleic Acid Language Model (RiNALMo) を導入しました。
RiNALMo はこれまでで最大の RNA 言語モデルであり、いくつかのデータベースからの 3,600 万の非コーディング RNA 配列で事前トレーニングされた 6 億 5,000 万のパラメーターを備えています。
隠された知識を抽出し、RNA 配列内に暗黙のうちに埋め込まれた基礎構造情報を捕捉できます。
RiNALMo は、いくつかの下流タスクで最先端の結果を達成します。
特に、我々は、その一般化機能が、二次構造予測のための他のディープラーニング手法がまだ見ぬRNAファミリーを一般化できないことを克服していることを示しています。

要約(オリジナル)

While RNA has recently been recognized as an interesting small-molecule drug target, many challenges remain to be addressed before we take full advantage of it. This emphasizes the necessity to improve our understanding of its structures and functions. Over the years, sequencing technologies have produced an enormous amount of unlabeled RNA data, which hides a huge potential. Motivated by the successes of protein language models, we introduce RiboNucleic Acid Language Model (RiNALMo) to unveil the hidden code of RNA. RiNALMo is the largest RNA language model to date, with 650M parameters pre-trained on 36M non-coding RNA sequences from several databases. It can extract hidden knowledge and capture the underlying structure information implicitly embedded within the RNA sequences. RiNALMo achieves state-of-the-art results on several downstream tasks. Notably, we show that its generalization capabilities overcome the inability of other deep learning methods for secondary structure prediction to generalize on unseen RNA families.

arxiv情報

著者 Rafael Josip Penić,Tin Vlašić,Roland G. Huber,Yue Wan,Mile Šikić
発行日 2024-11-12 15:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク