要約
人工知能の急速な進歩、特に大規模な言語モデル(LLMS)に基づいた自律剤システムは、シリコ内モデリングを改善し、費用のかかる実験試験への依存を減らすことにより、創薬を加速する新しい機会を提供します。
現在のAIエージェントベースのシステムは、プログラミングの課題を解決し、研究を実施する習熟度を示しており、医薬品の設計や創薬などの複雑な問題に対処できるソフトウェアを開発する新たな可能性を示しています。
このペーパーでは、仮想スクリーニングシナリオに似た単一の複雑な問題でAIエージェントの意思決定能力を評価するために設計されたベンチマークであるDo Challengeを紹介します。
ベンチマークは、化学空間をナビゲートし、モデルを選択し、多目的コンテキストで限られたリソースを管理しながら、広範なデータセットから有望な分子構造を識別するための効率的な戦略を独立して開発、実装、および実行するためにシステムに挑戦します。
また、人間の参加者が調査した多様な戦略を紹介する提案されたベンチマークに基づいた競争であるDo Challenge 2025の洞察についても説明します。
さらに、ベンチマークで強力なパフォーマンスを実証し、ほとんどの人間のチームを上回る深い思考マルチエージェントシステムを提示します。
テストされた言語モデルの中で、Claude 3.7 Sonnet、Gemini 2.5 Pro、およびO3がプライマリエージェントの役割で最高のパフォーマンスを発揮し、GPT-4O、Gemini 2.0 Flashは補助的な役割で効果的でした。
有望である一方で、システムのパフォーマンスはまだ専門家が設計したソリューションに及ばず、高い不安定性を示し、薬物発見とより広範な科学研究の変革におけるAI主導の方法論の潜在的および現在の制限の両方を強調しています。
要約(オリジナル)
The rapid advancement of artificial intelligence, particularly autonomous agentic systems based on Large Language Models (LLMs), presents new opportunities to accelerate drug discovery by improving in-silico modeling and reducing dependence on costly experimental trials. Current AI agent-based systems demonstrate proficiency in solving programming challenges and conducting research, indicating an emerging potential to develop software capable of addressing complex problems such as pharmaceutical design and drug discovery. This paper introduces DO Challenge, a benchmark designed to evaluate the decision-making abilities of AI agents in a single, complex problem resembling virtual screening scenarios. The benchmark challenges systems to independently develop, implement, and execute efficient strategies for identifying promising molecular structures from extensive datasets, while navigating chemical space, selecting models, and managing limited resources in a multi-objective context. We also discuss insights from the DO Challenge 2025, a competition based on the proposed benchmark, which showcased diverse strategies explored by human participants. Furthermore, we present the Deep Thought multi-agent system, which demonstrated strong performance on the benchmark, outperforming most human teams. Among the language models tested, Claude 3.7 Sonnet, Gemini 2.5 Pro and o3 performed best in primary agent roles, and GPT-4o, Gemini 2.0 Flash were effective in auxiliary roles. While promising, the system’s performance still fell short of expert-designed solutions and showed high instability, highlighting both the potential and current limitations of AI-driven methodologies in transforming drug discovery and broader scientific research.
arxiv情報
著者 | Khachik Smbatyan,Tsolak Ghukasyan,Tigran Aghajanyan,Hovhannes Dabaghyan,Sergey Adamyan,Aram Bughdaryan,Vahagn Altunyan,Gagik Navasardyan,Aram Davtyan,Anush Hakobyan,Aram Gharibyan,Arman Fahradyan,Artur Hakobyan,Hasmik Mnatsakanyan,Narek Ginoyan,Garik Petrosyan |
発行日 | 2025-04-28 15:41:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google