Comprehensive benchmarking of large language models for RNA secondary structure prediction

要約

DNA およびタンパク質の大規模言語モデル (LLM) の成功に触発されて、RNA 用のいくつかの LLM が最近開発されました。
RNA-LLM は、RNA 配列の大規模なデータセットを使用して、意味論的に豊富な数値ベクトルで各 RNA 塩基を表現する方法を自己教師付きの方法で学習します。
これは、高品質の RNA 表現を取得することで、データコストのかかる下流のタスクを強化できるという仮説に基づいて行われます。
中でも二次構造の予測は、RNAの機能機構を解明するための基本的な課題です。
この研究では、統合された深層学習フレームワークでの RNA 二次構造予測タスクについて比較する、いくつかの事前トレーニング済み RNA-LLM の包括的な実験分析を紹介します。
RNA-LLM は、ベンチマーク データセットで一般化の難易度を上げながら評価されました。
結果は、2 つの LLM が他のモデルよりも明らかに優れていることを示し、相同性の低いシナリオでの一般化に対する重大な課題を明らかにしました。

要約(オリジナル)

Inspired by the success of large language models (LLM) for DNA and proteins, several LLM for RNA have been developed recently. RNA-LLM uses large datasets of RNA sequences to learn, in a self-supervised way, how to represent each RNA base with a semantically rich numerical vector. This is done under the hypothesis that obtaining high-quality RNA representations can enhance data-costly downstream tasks. Among them, predicting the secondary structure is a fundamental task for uncovering RNA functional mechanisms. In this work we present a comprehensive experimental analysis of several pre-trained RNA-LLM, comparing them for the RNA secondary structure prediction task in an unified deep learning framework. The RNA-LLM were assessed with increasing generalization difficulty on benchmark datasets. Results showed that two LLM clearly outperform the other models, and revealed significant challenges for generalization in low-homology scenarios.

arxiv情報

著者 L. I. Zablocki,L. A. Bugnon,M. Gerard,L. Di Persia,G. Stegmayer,D. H. Milone
発行日 2024-10-21 17:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク