COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models

要約

セントラル ドグマ内の重要な要素として、DNA、RNA、タンパク質は、正確な遺伝子発現と実装を保証することで生命の維持に重要な役割を果たします。
これらの分子の研究は医学、農業、産業などの分野に大きな影響を与えていますが、従来の統計手法から深層学習モデルや大規模言語モデルに至るまで、機械学習アプローチの多様性により、特定のタスクに最適なモデルを選択する際に研究者に課題が生じています。
包括的なベンチマークがないため、特にクロスオミックスおよびマルチオミクスタスクの場合に顕著です。
これに対処するために、シングルオミクス、クロスオミクス、マルチオミクスのタスク全体でモデルを評価するように設計された、最初の包括的なマルチオミクスベンチマーク COMET (生物学的包括的マルチオミクス評価タスクおよび言語モデルのベンチマーク) を導入します。
まず、複数のオミクスレベルにわたるタスクを含め、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする下流タスクとデータセットの多様なコレクションを厳選し、開発します。
次に、DNA、RNA、タンパク質の既存の基礎言語モデルと、新しく提案されたマルチオミクス手法を評価し、さまざまな生物学的モダリティからのデータを統合および分析する際のパフォーマンスについての貴重な洞察を提供します。
このベンチマークは、マルチオミックス研究における重要な問題を定義し、将来の方向性を導き、最終的には統合されたさまざまなオミクスデータ分析を通じて生物学的プロセスの理解の進歩を促進することを目的としています。

要約(オリジナル)

As key elements within the central dogma, DNA, RNA, and proteins play crucial roles in maintaining life by guaranteeing accurate genetic expression and implementation. Although research on these molecules has profoundly impacted fields like medicine, agriculture, and industry, the diversity of machine learning approaches-from traditional statistical methods to deep learning models and large language models-poses challenges for researchers in choosing the most suitable models for specific tasks, especially for cross-omics and multi-omics tasks due to the lack of comprehensive benchmarks. To address this, we introduce the first comprehensive multi-omics benchmark COMET (Benchmark for Biological COmprehensive Multi-omics Evaluation Tasks and Language Models), designed to evaluate models across single-omics, cross-omics, and multi-omics tasks. First, we curate and develop a diverse collection of downstream tasks and datasets covering key structural and functional aspects in DNA, RNA, and proteins, including tasks that span multiple omics levels. Then, we evaluate existing foundational language models for DNA, RNA, and proteins, as well as the newly proposed multi-omics method, offering valuable insights into their performance in integrating and analyzing data from different biological modalities. This benchmark aims to define critical issues in multi-omics research and guide future directions, ultimately promoting advancements in understanding biological processes through integrated and different omics data analysis.

arxiv情報

著者 Yuchen Ren,Wenwei Han,Qianyuan Zhang,Yining Tang,Weiqiang Bai,Yuchen Cai,Lifeng Qiao,Hao Jiang,Dong Yuan,Tao Chen,Siqi Sun,Pan Tan,Wanli Ouyang,Nanqing Dong,Xinzhu Ma,Peng Ye
発行日 2024-12-13 18:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク