要約
AI 駆動モデルは、胸部 X 線検査の放射線レポート生成の自動化において大きな可能性を示しています。
ただし、そのパフォーマンスを客観的に評価するための標準化されたベンチマークはありません。
これに対処するために、AI を利用した放射線医学レポートの生成を評価するための公開リーダーボードおよび課題である ReXrank (https://rexrank.ai) を紹介します。
私たちのフレームワークには、10,000 件の研究で構成される最大のテスト データセットである ReXGradient と、レポート生成評価用の 3 つの公開データセット (MIMIC-CXR、IU-Xray、CheXpert Plus) が組み込まれています。
ReXrank は 8 つの評価指標を採用し、所見セクションのみを生成できるモデルと、所見とインプレッションの両方のセクションを提供するモデルを個別に評価します。
この標準化された評価フレームワークを提供することにより、ReXrank はモデルのパフォーマンスの有意義な比較を可能にし、多様な臨床設定にわたるモデルの堅牢性についての重要な洞察を提供します。
ReXrank のフレームワークは、現在の胸部 X 線撮影への焦点を超えて、医療画像の全領域にわたる自動レポートの包括的な評価の準備を整えています。
要約(オリジナル)
AI-driven models have demonstrated significant potential in automating radiology report generation for chest X-rays. However, there is no standardized benchmark for objectively evaluating their performance. To address this, we present ReXrank, https://rexrank.ai, a public leaderboard and challenge for assessing AI-powered radiology report generation. Our framework incorporates ReXGradient, the largest test dataset consisting of 10,000 studies, and three public datasets (MIMIC-CXR, IU-Xray, CheXpert Plus) for report generation assessment. ReXrank employs 8 evaluation metrics and separately assesses models capable of generating only findings sections and those providing both findings and impressions sections. By providing this standardized evaluation framework, ReXrank enables meaningful comparisons of model performance and offers crucial insights into their robustness across diverse clinical settings. Beyond its current focus on chest X-rays, ReXrank’s framework sets the stage for comprehensive evaluation of automated reporting across the full spectrum of medical imaging.
arxiv情報
著者 | Xiaoman Zhang,Hong-Yu Zhou,Xiaoli Yang,Oishi Banerjee,Julián N. Acosta,Josh Miller,Ouwen Huang,Pranav Rajpurkar |
発行日 | 2024-11-22 18:40:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google