RaTEScore: A Metric for Radiology Report Generation

要約

この論文では、AI モデルによって生成された医療レポートの品質を評価するために、Radiological Report (Text) Evaluation (RaTEScore) と呼ばれる、エンティティを認識した新しい指標を紹介します。
RaTEScore は、診断結果や解剖学的詳細などの重要な医療エンティティを強調し、複雑な医療同義語に対して堅牢であり、否定表現にも敏感です。
技術的には、包括的な医療 NER データセットである RaTE-NER を開発し、この目的のために特別に NER モデルをトレーニングしました。
このモデルにより、複雑な放射線レポートを医療エンティティを構成する要素に分解することができます。
メトリクス自体は、言語モデルから取得されたエンティティ埋め込みの類似性を、エンティティ埋め込みの種類と臨床的重要性との関連性に基づいて比較することによって導出されます。
私たちの評価は、RaTEScore が既存の指標よりも人間の好みに密接に一致していることを示しており、確立された公開ベンチマークと新しく提案された RaTE-Eval ベンチマークの両方で検証されています。

要約(オリジナル)

This paper introduces a novel, entity-aware metric, termed as Radiological Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports generated by AI models. RaTEScore emphasizes crucial medical entities such as diagnostic outcomes and anatomical details, and is robust against complex medical synonyms and sensitive to negation expressions. Technically, we developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER model specifically for this purpose. This model enables the decomposition of complex radiological reports into constituent medical entities. The metric itself is derived by comparing the similarity of entity embeddings, obtained from a language model, based on their types and relevance to clinical significance. Our evaluations demonstrate that RaTEScore aligns more closely with human preference than existing metrics, validated both on established public benchmarks and our newly proposed RaTE-Eval benchmark.

arxiv情報

著者 Weike Zhao,Chaoyi Wu,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2024-06-24 17:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク