要約
大規模な言語モデル(LLMS)は、臨床質問応答に強い可能性を示しており、最近のマルチエージェントフレームワークは、共同推論を介して診断の精度をさらに向上させています。
ただし、特に複雑なまたは曖昧な場合に、エージェントが十分な批判的分析なしで診断に早期に収束するサイレント合意の繰り返しの問題を特定します。
Catfish Agentと呼ばれる新しいコンセプトを提示します。これは、構造化された異議と沈黙の合意を注入するように設計された役割専門LLMです。
組織心理学における「ナマズ効果」に触発されたナマズのエージェントは、より深い推論を刺激するために新たなコンセンサスに挑戦するように設計されています。
(i)症例の難易度に基づいてエージェントの関与を調節する複雑さを意識した介入と、(ii)批評とコラボレーションのバランスをとるために明確にされたトーンキャリブレーションされた介入。
9つの医療Q&Aと3つの医療VQAベンチマークの評価は、GPT-4OやDeepSeek-R1などの主要な商用モデルを含む、単一およびマルチエージェントLLMSフレームワークの両方を常に上回ることができることを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated strong potential in clinical question answering, with recent multi-agent frameworks further improving diagnostic accuracy via collaborative reasoning. However, we identify a recurring issue of Silent Agreement, where agents prematurely converge on diagnoses without sufficient critical analysis, particularly in complex or ambiguous cases. We present a new concept called Catfish Agent, a role-specialized LLM designed to inject structured dissent and counter silent agreement. Inspired by the “catfish effect” in organizational psychology, the Catfish Agent is designed to challenge emerging consensus to stimulate deeper reasoning. We formulate two mechanisms to encourage effective and context-aware interventions: (i) a complexity-aware intervention that modulates agent engagement based on case difficulty, and (ii) a tone-calibrated intervention articulated to balance critique and collaboration. Evaluations on nine medical Q&A and three medical VQA benchmarks show that our approach consistently outperforms both single- and multi-agent LLMs frameworks, including leading commercial models such as GPT-4o and DeepSeek-R1.
arxiv情報
著者 | Yihan Wang,Qiao Yan,Zhenghao Xing,Lihao Liu,Junjun He,Chi-Wing Fu,Xiaowei Hu,Pheng-Ann Heng |
発行日 | 2025-05-27 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google