BEACON: Benchmark for Comprehensive RNA Tasks and Language Models

要約

RNA は、遺伝的指示を機能的な結果に変換する上で極めて重要な役割を果たしており、生物学的プロセスや疾患メカニズムにおけるその重要性を強調しています。
RNA、特にユニバーサル RNA 言語モデルに対する多数の深層学習アプローチが出現したにもかかわらず、これらの手法の有効性を評価するための標準化されたベンチマークが依然として大幅に不足しています。
この研究では、最初の包括的な RNA ベンチマーク BEACON (\textbf{CO}mprehensive R\textbf{N}A タスクおよび言語モデルの \textbf{BE}nchm\textbf{A}rk) を紹介します。
まず、BEACON は、構造解析、機能研究、工学的応用をカバーするこれまでの広範な研究から派生した 13 の異なるタスクで構成されており、さまざまな RNA 理解タスクにおけるメソッドのパフォーマンスの包括的な評価を可能にします。
次に、CNN などの従来のアプローチや、言語モデルに基づく高度な RNA 基盤モデルを含むさまざまなモデルを検証し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供します。
第三に、トークナイザーと位置エンコーディングの側面から重要な RNA 言語モデルのコンポーネントを調査します。
特に、我々の調査結果は、従来の位置エンコーディング法よりも一塩基トークン化の優位性と、Attention with Linear Biases (ALiBi) の有効性を強調しています。
これらの洞察に基づいて、限られたデータと計算リソースで優れたパフォーマンスを達成できる、BEACON-B と呼ばれるシンプルかつ強力なベースラインが提案されています。
ベンチマークのデータセットとソース コードは、https://github.com/terry-r123/RNABenchmark で入手できます。

要約(オリジナル)

RNA plays a pivotal role in translating genetic instructions into functional outcomes, underscoring its importance in biological processes and disease mechanisms. Despite the emergence of numerous deep learning approaches for RNA, particularly universal RNA language models, there remains a significant lack of standardized benchmarks to assess the effectiveness of these methods. In this study, we introduce the first comprehensive RNA benchmark BEACON (\textbf{BE}nchm\textbf{A}rk for \textbf{CO}mprehensive R\textbf{N}A Task and Language Models). First, BEACON comprises 13 distinct tasks derived from extensive previous work covering structural analysis, functional studies, and engineering applications, enabling a comprehensive assessment of the performance of methods on various RNA understanding tasks. Second, we examine a range of models, including traditional approaches like CNNs, as well as advanced RNA foundation models based on language models, offering valuable insights into the task-specific performances of these models. Third, we investigate the vital RNA language model components from the tokenizer and positional encoding aspects. Notably, our findings emphasize the superiority of single nucleotide tokenization and the effectiveness of Attention with Linear Biases (ALiBi) over traditional positional encoding methods. Based on these insights, a simple yet strong baseline called BEACON-B is proposed, which can achieve outstanding performance with limited data and computational resources. The datasets and source code of our benchmark are available at https://github.com/terry-r123/RNABenchmark.

arxiv情報

著者 Yuchen Ren,Zhiyuan Chen,Lifeng Qiao,Hongtai Jing,Yuchen Cai,Sheng Xu,Peng Ye,Xinzhu Ma,Siqi Sun,Hongliang Yan,Dong Yuan,Wanli Ouyang,Xihui Liu
発行日 2024-12-12 18:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク