How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses

要約

CT スキャンを自動的に解釈することで、放射線科医の作業負荷が軽減されます。
しかし、これは主に、評価のための適切なデータセットと参照基準が不足しているため、困難です。
今回の研究は、「GPTRadScore」という新たな評価フレームワークを導入することで、このギャップを埋めることを目的としている。
このフレームワークは、将来的に特定された所見の説明を生成する際の、GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFM などのマルチモーダル LLM の機能を評価します。
GPTRadScore は、GPT-4 に基づく分解手法を採用することで、生成されたこれらの記述をゴールドスタンダードのレポート文と比較し、身体の部位、位置、所見の種類の観点からその精度を分析します。
評価では臨床医の評価との高い相関関係が実証され、BLEU、METEOR、ROUGEなどの従来の指標を上回る可能性が強調されました。
さらに、将来の研究に貢献するために、臨床医によって注釈が付けられたベンチマーク データセットをリリースする予定です。
GPTRadScore を使用したところ、GPT-4V と Gemini Pro Vision のパフォーマンスは優れているものの、主にこれらのモデルのトレーニングに使用されるデータセットの制限により、パフォーマンスに改善の余地がある重要な領域が明らかになりました。
この可能性を実証するために、RadFM が微調整され、精度が大幅に向上しました。位置精度は 3.41\% から 12.8\%、身体部分の精度は 29.12\% から 53\%、タイプ精度は 9.24\% から 12.8\% に向上しました。
30\% であるため、仮説が検証されます。

要約(オリジナル)

Automatically interpreting CT scans can ease the workload of radiologists. However, this is challenging mainly due to the scarcity of adequate datasets and reference standards for evaluation. This study aims to bridge this gap by introducing a novel evaluation framework, named “GPTRadScore”. This framework assesses the capabilities of multi-modal LLMs, such as GPT-4 with Vision (GPT-4V), Gemini Pro Vision, LLaVA-Med, and RadFM, in generating descriptions for prospectively-identified findings. By employing a decomposition technique based on GPT-4, GPTRadScore compares these generated descriptions with gold-standard report sentences, analyzing their accuracy in terms of body part, location, and type of finding. Evaluations demonstrated a high correlation with clinician assessments and highlighted its potential over traditional metrics, such as BLEU, METEOR, and ROUGE. Furthermore, to contribute to future studies, we plan to release a benchmark dataset annotated by clinicians. Using GPTRadScore, we found that while GPT-4V and Gemini Pro Vision fare better, their performance revealed significant areas for improvement, primarily due to limitations in the dataset used for training these models. To demonstrate this potential, RadFM was fine-tuned and it resulted in significant accuracy improvements: location accuracy rose from 3.41\% to 12.8\%, body part accuracy from 29.12\% to 53\%, and type accuracy from 9.24\% to 30\%, thereby validating our hypothesis.

arxiv情報

著者 Qingqing Zhu,Benjamin Hou,Tejas S. Mathai,Pritam Mukherjee,Qiao Jin,Xiuying Chen,Zhizheng Wang,Ruida Cheng,Ronald M. Summers,Zhiyong Lu
発行日 2024-06-18 12:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク