GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians

要約

機械学習の最近の進歩により、遺伝子発現データセットからの疾患関連遺伝子の同定が大幅に向上しました。
ただし、これらのプロセスには広範な専門知識と手作業が必要なことが多く、拡張性が制限されます。
Large Language Model (LLM) ベースのエージェントは、問題解決能力が向上しているため、これらのタスクの自動化が期待できます。
このような手法の評価と開発をサポートするために、データセットの選択、前処理、および統計分析のタスクを含む、遺伝子発現データの自動探索のためのベンチマーク データセットである GenoTEX を紹介します。
GenoTEX は、計算ゲノミクスの標準に準拠した完全な分析パイプラインで、幅広い遺伝子同定問題を解決するための注釈付きコードと結果を提供します。
これらのアノテーションは、正確さと信頼性を確保するためにデータセットを注意深く分析する人間のバイオインフォマティシャンによって厳選されています。
これらのタスクのベースラインを提供するために、GenoAgents を紹介します。GenoAgents は、コンテキストを意識した計画、反復的な修正、および遺伝子データセットを共同で探索するためのドメイン専門家との協議によって設計された LLM ベースのエージェントのチームです。
GenoAgents を使用した実験では、ゲノミクス データ分析における LLM ベースのアプローチの可能性を実証する一方、エラー分析では課題と今後の改善の余地がある領域を明らかにしています。
私たちは、GenoTEX を、ゲノミクス データ分析の AI 駆動手法のベンチマークと強化のための有望なリソースとして提案します。
私たちはベンチマークを \url{https://github.com/Liu-Hy/GenoTex} で公開しています。

要約(オリジナル)

Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automatic exploration of gene expression data, involving the tasks of dataset selection, preprocessing, and statistical analysis. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, in a full analysis pipeline that follows the standard of computational genomics. These annotations are curated by human bioinformaticians who carefully analyze the datasets to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgents, a team of LLM-based agents designed with context-aware planning, iterative correction, and domain expert consultation to collaboratively explore gene datasets. Our experiments with GenoAgents demonstrate the potential of LLM-based approaches in genomics data analysis, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing AI-driven methods for genomics data analysis. We make our benchmark publicly available at \url{https://github.com/Liu-Hy/GenoTex}.

arxiv情報

著者 Haoyang Liu,Haohan Wang
発行日 2024-06-21 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク