Radiology-Aware Model-Based Evaluation Metric for Report Generation


私たちは、放射線医学分野に適合した成功した COMET アーキテクチャを使用して、機械生成された放射線医学レポートの新しい自動評価基準を提案します。
私たちは、放射線医学のナレッジ グラフである RadGraph でトレーニングされたチェックポイントを含む、4 つの医学指向のモデル チェックポイントをトレーニングして公開しています。
私たちの結果は、私たちの指標が BERTscore、BLEU、CheXbert スコアなどの確立された指標と中程度から高い相関関係があることを示しています。
さらに、200 件のレポートのセットを使用し、6 人の認定放射線科医による公開されている注釈を使用して評価したところ、チェックポイントの 1 つが人間の判断と高い相関関係を示していることを実証しました。
また、100 件のレポートのコレクションに対して 2 人の放射線科医と注釈を収集して独自の分析も実行しました。


We propose a new automated evaluation metric for machine-generated radiology reports using the successful COMET architecture adapted for the radiology domain. We train and publish four medically-oriented model checkpoints, including one trained on RadGraph, a radiology knowledge graph. Our results show that our metric correlates moderately to high with established metrics such as BERTscore, BLEU, and CheXbert scores. Furthermore, we demonstrate that one of our checkpoints exhibits a high correlation with human judgment, as assessed using the publicly available annotations of six board-certified radiologists, using a set of 200 reports. We also performed our own analysis gathering annotations with two radiologists on a collection of 100 reports. The results indicate the potential effectiveness of our method as a radiology-specific evaluation metric. The code, data, and model checkpoints to reproduce our findings will be publicly available.


著者 Amos Calamida,Farhad Nooralahzadeh,Morteza Rohanian,Koji Fujimoto,Mizuho Nishio,Michael Krauthammer
発行日 2023-11-28 13:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク