要約
自動医療レポートの生成は、臨床診断をサポートし、放射線科医のワークロードを減らし、診断の一貫性を改善するという約束を保持します。
ただし、既存の評価メトリックは、報告された異常の位置や確実性などの重要な詳細を見落としながら、人間が作成したレポートと比較して、生成されたレポートの主要な医療情報カバレッジの精度を主に評価します。
これらの制限は、生成されたレポートの信頼性の包括的な評価を妨げ、臨床使用の選択にリスクをもたらします。
したがって、このホワイトペーパーでは、客観的な定量化と主観的評価の両方を実施する粒状の説明可能なマルチエージェントスコア(GEMAスコア)を提案します。
GEMAスコアは、疾患の診断、位置、重症度、不確実性を評価するために、エージェント間の情報交換を通じてインタラクティブな情報交換を通じて、構造化されたレポートを分析し、NER-F1計算を採用しています。
さらに、LLMベースのスコアリングエージェントは、説明的なフィードバックを提供しながら、完全性、読みやすさ、および臨床用語を評価します。
広範な実験では、GEMAスコアがパブリックデータセットの人間の専門家評価と最高の相関を達成し、臨床スコアリングにおけるその有効性を実証することを検証します(Rexval DatasetおよびKendall係数= Radevalx Datasetの場合は0.54)。
匿名のプロジェクトデモは、https://github.com/zhenxuan-zhang/gema_scoreで入手できます。
要約(オリジナル)
Automatic medical report generation supports clinical diagnosis, reduces the workload of radiologists, and holds the promise of improving diagnosis consistency. However, existing evaluation metrics primarily assess the accuracy of key medical information coverage in generated reports compared to human-written reports, while overlooking crucial details such as the location and certainty of reported abnormalities. These limitations hinder the comprehensive assessment of the reliability of generated reports and pose risks in their selection for clinical use. Therefore, we propose a Granular Explainable Multi-Agent Score (GEMA-Score) in this paper, which conducts both objective quantification and subjective evaluation through a large language model-based multi-agent workflow. Our GEMA-Score parses structured reports and employs NER-F1 calculations through interactive exchanges of information among agents to assess disease diagnosis, location, severity, and uncertainty. Additionally, an LLM-based scoring agent evaluates completeness, readability, and clinical terminology while providing explanatory feedback. Extensive experiments validate that GEMA-Score achieves the highest correlation with human expert evaluations on a public dataset, demonstrating its effectiveness in clinical scoring (Kendall coefficient = 0.70 for Rexval dataset and Kendall coefficient = 0.54 for RadEvalX dataset). The anonymous project demo is available at: https://github.com/Zhenxuan-Zhang/GEMA_score.
arxiv情報
著者 | Zhenxuan Zhang,Kinhei Lee,Weihang Deng,Huichi Zhou,Zihao Jin,Jiahao Huang,Zhifan Gao,Dominic C Marshall,Yingying Fang,Guang Yang |
発行日 | 2025-03-07 11:42:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google