MMedAgent: Learning to Use Medical Tools with Multi-modal Agent

要約

マルチモーダル大規模言語モデル (MLLM) は、成功しているとはいえ、汎用性が限られており、特殊なモデルと比較すると不十分であることがよくあります。
最近、LLM ベースのエージェントが開発され、ユーザー入力に基づいてツールとして適切な特殊モデルを選択することで、これらの課題に対処しています。
しかし、そのような進歩は医療分野では広く検討されていません。
このギャップを埋めるために、この文書では、\textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent} (MMedAgent) という名前の、医療分野向けに明示的に設計された最初のエージェントを紹介します。
私たちは、7 つのタスクを解決する 6 つの医療ツールで構成される指示調整データセットを厳選し、エージェントが特定のタスクに最適なツールを選択できるようにします。
包括的な実験により、MMedAgent が最先端のオープンソース手法やクローズドソース モデルである GPT-4o と比較して、さまざまな医療タスクにわたって優れたパフォーマンスを達成することが実証されています。
さらに、MMedAgent は、新しい医療ツールの更新と統合において効率性を発揮します。

要約(オリジナル)

Multi-Modal Large Language Models (MLLMs), despite being successful, exhibit limited generality and often fall short when compared to specialized models. Recently, LLM-based agents have been developed to address these challenges by selecting appropriate specialized models as tools based on user inputs. However, such advancements have not been extensively explored within the medical domain. To bridge this gap, this paper introduces the first agent explicitly designed for the medical field, named \textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent} (MMedAgent). We curate an instruction-tuning dataset comprising six medical tools solving seven tasks, enabling the agent to choose the most suitable tools for a given task. Comprehensive experiments demonstrate that MMedAgent achieves superior performance across a variety of medical tasks compared to state-of-the-art open-source methods and even the closed-source model, GPT-4o. Furthermore, MMedAgent exhibits efficiency in updating and integrating new medical tools.

arxiv情報

著者 Binxu Li,Tiankai Yan,Yuanting Pan,Zhe Xu,Jie Luo,Ruiyang Ji,Shilong Liu,Haoyu Dong,Zihao Lin,Yixin Wang
発行日 2024-07-02 17:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク