ER2Score: LLM-based Explainable and Customizable Metric for Assessing Radiology Reports with Reward-Control Loss

要約

自動放射線レポート生成 (R2Gen) は大幅に進歩し、その複雑さにより正確な評価に課題が生じています。
従来の指標は、厳密な単語の一致に依存したり、病理学的実体のみに焦点を当てたりすることにより、不十分なことが多く、人間の評価との不一致につながります。
このギャップを埋めるために、R2Gen 専用に設計された自動評価指標である ER2Score を導入します。
当社の指標では、マージンベースの報酬執行損失に基づいた報酬モデルと、ユーザー定義のニーズに合わせて評価基準をカスタマイズできるカスタマイズされたトレーニング データ設計を利用しています。
ユーザーが指定した基準に従ってレポートにスコアを付けるだけでなく、詳細なサブスコアも提供して解釈性を高め、ユーザーがレポートのさまざまな側面間で基準を調整できるようにします。
GPT-4 を活用して、使いやすいデータ生成パイプラインを設計し、2 つの異なるスコアリング システムに基づいて広範なトレーニング データを生成できるようにしました。各スコアリング システムには、対応するスコアとともにさまざまな品質のレポートが含まれています。
これらの GPT 生成レポートは、ペアリング ルールを通じて承認サンプルと拒否サンプルとしてペアリングされ、きめ細かい報酬モデルに向けて LLM をトレーニングします。これにより、高品質のレポートにより高い報酬が割り当てられます。
報酬制御損失により、このモデルは評価基準の数に対応する複数の個別の報酬を同時に出力し、それらの合計を最終的な ER2Score として出力することができます。
私たちの実験では、従来の指標と比較して、ER2Score が人間の判断との相関性が高く、モデル選択におけるパフォーマンスが優れていることが実証されました。
特に、私たちのモデルは各評価項目の全体スコアと個別スコアの両方を提供し、解釈可能性を高めています。
さまざまな評価制度にまたがる柔軟な研修も実証しています。

要約(オリジナル)

Automated radiology report generation (R2Gen) has advanced significantly, introducing challenges in accurate evaluation due to its complexity. Traditional metrics often fall short by relying on rigid word-matching or focusing only on pathological entities, leading to inconsistencies with human assessments. To bridge this gap, we introduce ER2Score, an automatic evaluation metric designed specifically for R2Gen. Our metric utilizes a reward model, guided by our margin-based reward enforcement loss, along with a tailored training data design that enables customization of evaluation criteria to suit user-defined needs. It not only scores reports according to user-specified criteria but also provides detailed sub-scores, enhancing interpretability and allowing users to adjust the criteria between different aspects of reports. Leveraging GPT-4, we designed an easy-to-use data generation pipeline, enabling us to produce extensive training data based on two distinct scoring systems, each containing reports of varying quality along with corresponding scores. These GPT-generated reports are then paired as accepted and rejected samples through our pairing rule to train an LLM towards our fine-grained reward model, which assigns higher rewards to the report with high quality. Our reward-control loss enables this model to simultaneously output multiple individual rewards corresponding to the number of evaluation criteria, with their summation as our final ER2Score. Our experiments demonstrate ER2Score’s heightened correlation with human judgments and superior performance in model selection compared to traditional metrics. Notably, our model provides both an overall score and individual scores for each evaluation item, enhancing interpretability. We also demonstrate its flexible training across various evaluation systems.

arxiv情報

著者 Yunyi Liu,Yingshu Li,Zhanyu Wang,Xinyu Liang,Lingqiao Liu,Lei Wang,Luping Zhou
発行日 2024-11-26 10:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク