Are we going MAD? Benchmarking Multi-Agent Debate between Language Models for Medical Q&A

要約

大規模言語モデル (LLM) の最近の進歩により、LLM が医療上の問い合わせに応答できる可能性が強調されています。
ただし、生成エージェントが正確で信頼できる回答を提供することを保証することは、依然として継続的な課題です。
これに関連して、マルチエージェント ディベート (MAD) が、LLM の真実性を高めるための顕著な戦略として浮上しています。
この研究では、オープンソースの実装とともに、医療 Q&A の MAD 戦略の包括的なベンチマークを提供します。
これは、コスト、時間、精度の間のトレードオフを含むさまざまな戦略の効果的な利用を検討します。
私たちはこれらの洞察に基づいて、医療 Q&A タスクに関して以前に公開された戦略を上回る、エージェントの合意に基づいた新しい議論を促す戦略を提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) underscore their potential for responding to medical inquiries. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a prominent strategy for enhancing the truthfulness of LLMs. In this work, we provide a comprehensive benchmark of MAD strategies for medical Q&A, along with open-source implementations. This explores the effective utilization of various strategies including the trade-offs between cost, time, and accuracy. We build upon these insights to provide a novel debate-prompting strategy based on agent agreement that outperforms previously published strategies on medical Q&A tasks.

arxiv情報

著者 Andries Smit,Paul Duckworth,Nathan Grinsztajn,Kale-ab Tessera,Thomas D. Barrett,Arnu Pretorius
発行日 2023-11-29 05:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク