OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models

要約

近年の大規模言語モデル (LLM) などの人工知能の進歩により、ゲノム基盤モデル (GFM) のブレークスルーへの期待が高まっています。
生命の進化の始まりから多様なゲノムに隠された自然のコードは、ゲノムモデリングを通じて人間や生態系に影響を与える計り知れない可能性を秘めています。
Evo などの GFM の最近の進歩は、長年の課題に対処し、インシリコでのゲノム研究を自動化された信頼性の高い効率的なパラダイムに変えるため、ゲノムモデリングに多大な投資と注目を集めています。
ゲノミクスにおける連続的な技術革命のこの繁栄の時代において、GFM 研究は 2 つの大きな課題に直面しています。それは、GFM ベンチマーク ツールの欠如と、多様なゲノミクスに対応するオープンソース ソフトウェアの欠如です。
これらの課題は、GFM の急速な進化や、ゲノムの理解や合成などのタスクにおける GFM の広範な応用を妨げており、この問題は数十年にわたって続いています。
これらの課題に対処するために、GFM 指向のベンチマーク専用のフレームワークである GFMBench を導入します。
GFMBench は、ベンチマーク スイートを標準化し、幅広いオープンソース GFM のベンチマークを自動化します。
4 つの大規模ベンチマークからの数百のゲノム タスクにわたる数百万のゲノム配列を統合し、幅広いインシリコ ゲノム アプリケーション向けに GFM を民主化します。
さらに、GFMBench はオープンソース ソフトウェアとしてリリースされており、AutoBench や RNA 設計や構造予測などの複雑なタスクに適用できる、ユーザーフレンドリーなインターフェイスと多様なチュートリアルを提供します。
ゲノム モデリングのさらなる進歩を促進するために、AutoBench から得られたベンチマーク パフォーマンスを紹介する公開リーダーボードを立ち上げました。
GFMBench は、GFM ベンチマークの標準化と GFM アプリケーションの民主化に向けた一歩を表します。

要約(オリジナル)

The advancements in artificial intelligence in recent years, such as Large Language Models (LLMs), have fueled expectations for breakthroughs in genomic foundation models (GFMs). The code of nature, hidden in diverse genomes since the very beginning of life’s evolution, holds immense potential for impacting humans and ecosystems through genome modeling. Recent breakthroughs in GFMs, such as Evo, have attracted significant investment and attention to genomic modeling, as they address long-standing challenges and transform in-silico genomic studies into automated, reliable, and efficient paradigms. In the context of this flourishing era of consecutive technological revolutions in genomics, GFM studies face two major challenges: the lack of GFM benchmarking tools and the absence of open-source software for diverse genomics. These challenges hinder the rapid evolution of GFMs and their wide application in tasks such as understanding and synthesizing genomes, problems that have persisted for decades. To address these challenges, we introduce GFMBench, a framework dedicated to GFM-oriented benchmarking. GFMBench standardizes benchmark suites and automates benchmarking for a wide range of open-source GFMs. It integrates millions of genomic sequences across hundreds of genomic tasks from four large-scale benchmarks, democratizing GFMs for a wide range of in-silico genomic applications. Additionally, GFMBench is released as open-source software, offering user-friendly interfaces and diverse tutorials, applicable for AutoBench and complex tasks like RNA design and structure prediction. To facilitate further advancements in genome modeling, we have launched a public leaderboard showcasing the benchmark performance derived from AutoBench. GFMBench represents a step toward standardizing GFM benchmarking and democratizing GFM applications.

arxiv情報

著者 Heng Yang,Jack Cole,Ke Li
発行日 2024-10-02 17:40:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.GN パーマリンク