要約
大規模な言語モデル(LLM)の最近の進歩は、創薬を加速する大きな可能性を示しています。
ただし、生化学データの特殊な性質は、多くの場合、費用のかかるドメイン固有の微調整を必要とし、重要な課題を提起します。
まず、最先端の創薬タスクにおけるより柔軟な汎用LLMの適用を妨げます。
さらに重要なことは、実験と研究を通じて継続的に生成される膨大な量の科学データの迅速な統合を妨げることです。
これらの課題を調査するために、Drig Discovery Tasksに合わせて調整された検索された発電(RAG)容量のエージェントシステムであるCladdを提案します。
複数のLLMエージェントのコラボレーションを通じて、CLADDは生物医学的知識ベースから情報を動的に取得し、クエリ分子をコンテキスト化し、関連する証拠を統合して応答を生成します – すべてドメイン固有の微調整を必要とせずに。
重要なことに、データの不均一性、あいまいさ、マルチソースの統合など、生化学データにRAGワークフローを適用する際の重要な障害に取り組んでいます。
さまざまな創薬タスクにわたるこのフレームワークの柔軟性と有効性を実証し、汎用とドメイン固有のLLMS、および従来の深い学習アプローチよりも優れていることを示しています。
要約(オリジナル)
Recent advances in large language models (LLMs) have shown great potential to accelerate drug discovery. However, the specialized nature of biochemical data often necessitates costly domain-specific fine-tuning, posing critical challenges. First, it hinders the application of more flexible general-purpose LLMs in cutting-edge drug discovery tasks. More importantly, it impedes the rapid integration of the vast amounts of scientific data continuously generated through experiments and research. To investigate these challenges, we propose CLADD, a retrieval-augmented generation (RAG)-empowered agentic system tailored to drug discovery tasks. Through the collaboration of multiple LLM agents, CLADD dynamically retrieves information from biomedical knowledge bases, contextualizes query molecules, and integrates relevant evidence to generate responses — all without the need for domain-specific fine-tuning. Crucially, we tackle key obstacles in applying RAG workflows to biochemical data, including data heterogeneity, ambiguity, and multi-source integration. We demonstrate the flexibility and effectiveness of this framework across a variety of drug discovery tasks, showing that it outperforms general-purpose and domain-specific LLMs as well as traditional deep learning approaches.
arxiv情報
著者 | Namkyeong Lee,Edward De Brouwer,Ehsan Hajiramezanali,Tommaso Biancalani,Chanyoung Park,Gabriele Scalia |
発行日 | 2025-03-10 12:11:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google