要約
放射線医学において、人工知能(AI)はレポート作成を大幅に進歩させたが、AIが作成したレポートの自動評価は依然として困難である。従来の自然言語生成(NLG)や臨床的有効性(CE)のような現在の評価指標は、臨床文脈の意味的な複雑さを捉えるのに不十分であったり、臨床の詳細を強調しすぎたりして、レポートの明瞭性を損なうことが多い。これらの問題を克服するために、我々の提案する方法は、プロの放射線科医の専門知識とGPT-3.5やGPT-4 1のような大規模言語モデル(LLM)を相乗させる。In-Context Instruction Learning (ICIL)とChain of Thought (CoT)推論を利用することで、我々のアプローチはLLMの評価を放射線科医の標準に合わせ、人間とAIが生成したレポート間の詳細な比較を可能にする。これは、文の評価スコアを集約する回帰モデルによってさらに強化される。実験結果によると、我々の「詳細GPT-4(5ショット)」モデルは0.48スコアを達成し、METEORメトリックを0.19上回る一方、我々の「回帰GPT-4」モデルは専門家の評価とさらに高い整合性を示し、既存の最良のメトリックを0.35マージン上回る。さらに、我々の説明の頑健性は、徹底的な反復戦略によって検証されている。我々は、放射線科専門家によるアノテーションを公開し、今後の評価における精度の新たな基準を設定する予定である。これは、AI主導の医療レポートの品質評価を強化する上で、我々のアプローチの可能性を強調するものである。
要約(オリジナル)
In radiology, Artificial Intelligence (AI) has significantly advanced report generation, but automatic evaluation of these AI-produced reports remains challenging. Current metrics, such as Conventional Natural Language Generation (NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic intricacies of clinical contexts or overemphasize clinical details, undermining report clarity. To overcome these issues, our proposed method synergizes the expertise of professional radiologists with Large Language Models (LLMs), like GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain of Thought (CoT) reasoning, our approach aligns LLM evaluations with radiologist standards, enabling detailed comparisons between human and AI generated reports. This is further enhanced by a Regression model that aggregates sentence evaluation scores. Experimental results show that our ‘Detailed GPT-4 (5-shot)’ model achieves a 0.48 score, outperforming the METEOR metric by 0.19, while our ‘Regressed GPT-4’ model shows even greater alignment with expert evaluations, exceeding the best existing metric by a 0.35 margin. Moreover, the robustness of our explanations has been validated through a thorough iterative strategy. We plan to publicly release annotations from radiology experts, setting a new standard for accuracy in future assessments. This underscores the potential of our approach in enhancing the quality assessment of AI-driven medical reports.
arxiv情報
著者 | Qingqing Zhu,Xiuying Chen,Qiao Jin,Benjamin Hou,Tejas Sudharshan Mathai,Pritam Mukherjee,Xin Gao,Ronald M Summers,Zhiyong Lu |
発行日 | 2024-02-02 17:28:22+00:00 |
arxivサイト | arxiv_id(pdf) |