MedAgentBench: Dataset for Benchmarking LLMs as Agents in Medical Applications

要約

最近の大規模言語モデル (LLM) は、特にエージェントとして機能する機能において大幅な進歩を示しており、チャットボットとしての従来の役割を超えています。
これらのエージェントは、計画とツールの利用能力を活用して、高レベルで指定されたタスクに対処できます。
ただし、医療アプリケーションにおける LLM のエージェント機能をベンチマークするための標準化されたデータセットが現在不足しているため、インタラクティブな医療環境における複雑なタスクにおける LLM の評価が困難になっています。
このギャップに対処するために、医療記録のコンテキスト内で大規模な言語モデルのエージェントの能力を評価するように設計された広範な評価スイートである MedAgentBench を導入します。
MedAgentBench には、人間の医師によって作成された 10 のカテゴリからの 100 の患者固有の臨床的に派生したタスク、700,000 を超えるデータ要素を含む 100 人の患者の現実的なプロファイル、FHIR 準拠の対話型環境、および付随するコードベースが含まれています。
この環境は、最新の EMR システムで使用されている標準 API と通信インフラストラクチャを使用しているため、ライブ EMR システムに簡単に移行できます。
MedAgentBench は、現在の最先端の LLM がある程度の成功を収める能力を示す、不飽和のエージェント指向のベンチマークを提供します。
最高のモデル (GPT-4o) は 72% の成功率を達成します。
ただし、コミュニティに次の最適化の方向性を与えるためには、まだ改善の余地がかなりあります。
さらに、タスク カテゴリ間でパフォーマンスに大きなばらつきがあります。
MedAgentBench はこれを確立し、 https://github.com/stanfordmlgroup/MedAgentBench で公開されており、モデル開発者が進捗状況を追跡し、医療ドメイン内の大規模な言語モデルのエージェント機能の継続的な改善を推進するための貴重なフレームワークを提供します。

要約(オリジナル)

Recent large language models (LLMs) have demonstrated significant advancements, particularly in their ability to serve as agents thereby surpassing their traditional role as chatbots. These agents can leverage their planning and tool utilization capabilities to address tasks specified at a high level. However, a standardized dataset to benchmark the agent capabilities of LLMs in medical applications is currently lacking, making the evaluation of LLMs on complex tasks in interactive healthcare environments challenging. To address this gap, we introduce MedAgentBench, a broad evaluation suite designed to assess the agent capabilities of large language models within medical records contexts. MedAgentBench encompasses 100 patient-specific clinically-derived tasks from 10 categories written by human physicians, realistic profiles of 100 patients with over 700,000 data elements, a FHIR-compliant interactive environment, and an accompanying codebase. The environment uses the standard APIs and communication infrastructure used in modern EMR systems, so it can be easily migrated into live EMR systems. MedAgentBench presents an unsaturated agent-oriented benchmark that current state-of-the-art LLMs exhibit some ability to succeed at. The best model (GPT-4o) achieves a success rate of 72%. However, there is still substantial space for improvement to give the community a next direction to optimize. Furthermore, there is significant variation in performance across task categories. MedAgentBench establishes this and is publicly available at https://github.com/stanfordmlgroup/MedAgentBench , offering a valuable framework for model developers to track progress and drive continuous improvements in the agent capabilities of large language models within the medical domain.

arxiv情報

著者 Yixing Jiang,Kameron C. Black,Gloria Geng,Danny Park,Andrew Y. Ng,Jonathan H. Chen
発行日 2025-01-24 17:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク