要約
機械学習における最近の進歩により、遺伝子発現データセットからの疾患関連遺伝子の同定が大幅に改善されました。
ただし、これらのプロセスは、多くの場合、広範な専門知識と手動の努力を必要とし、スケーラビリティを制限します。
大規模な言語モデル(LLM)ベースのエージェントは、問題解決能力の増加により、これらのタスクを自動化することに有望を示しています。
このような方法の評価と開発をサポートするために、遺伝子発現データの自動分析のためのベンチマークデータセットであるGenoTexを紹介します。
GenoTexは、計算ゲノミクス標準に従うパイプラインで、データセットの選択、前処理、統計分析を含む、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供します。
ベンチマークには、正確性と信頼性を確保するために、バイオインフォマティシャンからの専門家がキュレーションした注釈が含まれています。
これらのタスクのベースラインを提供するために、遺伝子発現データセットを協力して分析するために、柔軟な自己修正でマルチステッププログラミングワークフローを採用するLLMベースのエージェントのチームであるGenoagentを提示します。
私たちの実験は、ゲノムデータの分析におけるLLMベースの方法の可能性を示していますが、エラー分析は将来の改善のための課題と領域を強調しています。
GenoTexを、遺伝子発現データ分析のためのベンチマークと強化のための有望なリソースとして提案します。
ベンチマークはhttps://github.com/liu-hy/genotexで入手できます。
要約(オリジナル)
Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automated analysis of gene expression data. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, encompassing dataset selection, preprocessing, and statistical analysis, in a pipeline that follows computational genomics standards. The benchmark includes expert-curated annotations from bioinformaticians to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgent, a team of LLM-based agents that adopt a multi-step programming workflow with flexible self-correction, to collaboratively analyze gene expression datasets. Our experiments demonstrate the potential of LLM-based methods in analyzing genomic data, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing automated methods for gene expression data analysis. The benchmark is available at https://github.com/Liu-Hy/GenoTex.
arxiv情報
著者 | Haoyang Liu,Shuyu Chen,Ye Zhang,Haohan Wang |
発行日 | 2025-03-27 17:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google