Multimodal Human-AI Synergy for Medical Imaging Quality Control: A Hybrid Intelligence Framework with Adaptive Dataset Curation and Closed-Loop Evaluation

要約

医療イメージング品質管理(QC)は正確な診断に不可欠ですが、従来のQC方法は労働集約的で主観的なままです。
この課題に対処するために、この研究では、医療イメージングQCの標準化されたデータセットと評価フレームワークを確立し、画質評価とレポート標準化における大規模な言語モデル(LLMS)を体系的に評価します。
具体的には、最初に161の胸部X線(CXR)レントゲン写真のデータセットと評価のために219のCTレポートを構築および匿名化しました。
次に、Gemini 2.0-Flash、GPT-4O、およびDeepSeek-R1を含む複数のLLMを、リコール、精度、およびF1スコアに基づいて評価して、技術的なエラーと矛盾を検出しました。
実験結果は、Gemini 2.0-FlashがCXRタスクで90のマクロF1スコアを達成し、強力な一般化が限られた微細なパフォーマンスを示していることを示しています。
DeepSeek-R1は、62.23 \%リコール率でCTレポート監査に優れており、他のモデルよりも優れています。
ただし、蒸留型バリアントはパフォーマンスが低下しましたが、InternLM2.5-7B-chatは最高の追加の発見率を示し、より広いが正確ではないエラー検出を示しています。
これらの発見は、deepseek-r1とgemini 2.0-flashが優れたパフォーマンスを実証する医療イメージングQCにおけるLLMの可能性を強調しています。

要約(オリジナル)

Medical imaging quality control (QC) is essential for accurate diagnosis, yet traditional QC methods remain labor-intensive and subjective. To address this challenge, in this study, we establish a standardized dataset and evaluation framework for medical imaging QC, systematically assessing large language models (LLMs) in image quality assessment and report standardization. Specifically, we first constructed and anonymized a dataset of 161 chest X-ray (CXR) radiographs and 219 CT reports for evaluation. Then, multiple LLMs, including Gemini 2.0-Flash, GPT-4o, and DeepSeek-R1, were evaluated based on recall, precision, and F1 score to detect technical errors and inconsistencies. Experimental results show that Gemini 2.0-Flash achieved a Macro F1 score of 90 in CXR tasks, demonstrating strong generalization but limited fine-grained performance. DeepSeek-R1 excelled in CT report auditing with a 62.23\% recall rate, outperforming other models. However, its distilled variants performed poorly, while InternLM2.5-7B-chat exhibited the highest additional discovery rate, indicating broader but less precise error detection. These findings highlight the potential of LLMs in medical imaging QC, with DeepSeek-R1 and Gemini 2.0-Flash demonstrating superior performance.

arxiv情報

著者 Zhi Qin,Qianhui Gui,Mouxiao Bian,Rui Wang,Hong Ge,Dandan Yao,Ziying Sun,Yuan Zhao,Yu Zhang,Hui Shi,Dongdong Wang,Chenxin Song,Shenghong Ju,Lihao Liu,Junjun He,Jie Xu,Yuan-Cheng Wang
発行日 2025-03-10 08:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク