m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training

要約

生物医学研究における大規模な言語モデル(LLMS)の急速な進歩は、既存のオープンソース注釈付きの科学corporaの限界を強調しています。
生物医学的知識の複雑な階層によってもたらされる課題に対処するために、生物医学の領域でのLLMトレーニングに合わせた科学的蒸留のための知識主導型のマルチエージェントフレームワークを提案します。
私たちのアプローチの中心は、それぞれが医療被験者の見出し(メッシュ)階層に導かれた専門的なエージェントが、膨大な科学文献から高品質のテキストデータを自律的に抽出、合成、自己評価するために連携して作業する共同マルチエージェントアーキテクチャです。
これらのエージェントは、ドメイン固有の質問回答ペアを集合的に生成および改良し、包括的なカバレッジと生物医学的オントロジーとの一貫性を確保しながら、手動の関与を最小限に抑えます。
広範な実験結果は、マルチエージェント蒸留データセットで訓練された言語モデルが生物医学的な質問を回答するタスクの顕著な改善を達成し、強力なライフサイエンスLLMベースラインと高度な独自モデルの両方を上回ることを示しています。
特に、当社のAI対応データセットにより、LLAMA3-70Bは、より大きなスケールにもかかわらず、MEDPROMPTおよびMED-PALM-2でGPT-4を上回ることができます。
詳細なアブレーション研究と症例分析により、フレームワーク内の各エージェントの有効性と相乗効果をさらに検証し、生物医学LLMトレーニングにおけるマルチエージェントコラボレーションの可能性を強調します。

要約(オリジナル)

The rapid progress of large language models (LLMs) in biomedical research has underscored the limitations of existing open-source annotated scientific corpora, which are often insufficient in quantity and quality. Addressing the challenge posed by the complex hierarchy of biomedical knowledge, we propose a knowledge-driven, multi-agent framework for scientific corpus distillation tailored for LLM training in the biomedical domain. Central to our approach is a collaborative multi-agent architecture, where specialized agents, each guided by the Medical Subject Headings (MeSH) hierarchy, work in concert to autonomously extract, synthesize, and self-evaluate high-quality textual data from vast scientific literature. These agents collectively generate and refine domain-specific question-answer pairs, ensuring comprehensive coverage and consistency with biomedical ontologies while minimizing manual involvement. Extensive experimental results show that language models trained on our multi-agent distilled datasets achieve notable improvements in biomedical question-answering tasks, outperforming both strong life sciences LLM baselines and advanced proprietary models. Notably, our AI-Ready dataset enables Llama3-70B to surpass GPT-4 with MedPrompt and Med-PaLM-2, despite their larger scale. Detailed ablation studies and case analyses further validate the effectiveness and synergy of each agent within the framework, highlighting the potential of multi-agent collaboration in biomedical LLM training.

arxiv情報

著者 Meng Xiao,Xunxin Cai,Chengrui Wang,Yuanchun Zhou
発行日 2025-04-28 08:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.QM パーマリンク