ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation

要約

自動放射線レポート生成(R2GEN)は大幅に進歩しており、その複雑さのために正確な評価に課題を導入しています。
従来の指標は、硬直した単語一致に依存したり、病理学的存在にのみ焦点を当てたりすることで不足していることが多く、人間の評価との矛盾につながります。
このギャップを埋めるために、R2GEN専用に設計された自動評価メトリックであるRefineを導入します。
メトリックは、マージンベースの報酬執行損失に導かれた報酬モデルと、ユーザー定義のニーズに合わせて評価基準のカスタマイズを可能にする調整されたトレーニングデータ設計を利用しています。
ユーザー指定の基準に従ってレポートをスコアリングするだけでなく、詳細なサブスコアを提供し、解釈可能性を高め、ユーザーがレポートのさまざまな側面間で基準を調整できるようにします。
GPT-4を活用すると、使いやすいデータ生成パイプラインを設計し、2つの異なるスコアリングシステムに基づいて広範なトレーニングデータを作成できるようになりました。
これらのGPT生成レポートは、ペアリングルールを通じて受け入れられ、拒否されたサンプルとしてペアになり、LLMを高品質でレポートに高い報酬を割り当てる細かい報酬モデルに向けてLLMを訓練します。
報酬制御の損失により、このモデルは、評価基準の数に対応する複数の個々の報酬を同時に出力し、最終的な改良として合計を出力できます。
私たちの実験は、従来の指標と比較して、モデル選択における人間の判断と優れたパフォーマンスとのRefineとの相関の高まりを示しています。
特に、私たちのモデルは、各評価項目の全体的なスコアと個々のスコアの両方を提供し、解釈可能性を向上させます。
また、さまざまな評価システムで柔軟なトレーニングを実証しています。

要約(オリジナル)

Automated radiology report generation (R2Gen) has advanced significantly, introducing challenges in accurate evaluation due to its complexity. Traditional metrics often fall short by relying on rigid word-matching or focusing only on pathological entities, leading to inconsistencies with human assessments. To bridge this gap, we introduce ReFINE, an automatic evaluation metric designed specifically for R2Gen. Our metric utilizes a reward model, guided by our margin-based reward enforcement loss, along with a tailored training data design that enables customization of evaluation criteria to suit user-defined needs. It not only scores reports according to user-specified criteria but also provides detailed sub-scores, enhancing interpretability and allowing users to adjust the criteria between different aspects of reports. Leveraging GPT-4, we designed an easy-to-use data generation pipeline, enabling us to produce extensive training data based on two distinct scoring systems, each containing reports of varying quality along with corresponding scores. These GPT-generated reports are then paired as accepted and rejected samples through our pairing rule to train an LLM towards our fine-grained reward model, which assigns higher rewards to the report with high quality. Our reward-control loss enables this model to simultaneously output multiple individual rewards corresponding to the number of evaluation criteria, with their summation as our final ReFINE. Our experiments demonstrate ReFINE’s heightened correlation with human judgments and superior performance in model selection compared to traditional metrics. Notably, our model provides both an overall score and individual scores for each evaluation item, enhancing interpretability. We also demonstrate its flexible training across various evaluation systems.

arxiv情報

著者 Yunyi Liu,Yingshu Li,Zhanyu Wang,Xinyu Liang,Lingqiao Liu,Lei Wang,Luping Zhou
発行日 2025-02-13 12:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク