X-ray Made Simple: Lay Radiology Report Generation and Robust Evaluation

要約

放射線学レポート生成(RRG)は、マルチモーダル生成モデルの開発によりかなり前進しています。
進歩にもかかわらず、既存のメトリックが堅牢性と公平性を欠いているため、この分野は依然として評価に大きな課題に直面しています。
既存の語彙ベースのメトリック(たとえば、BLE)で高いパフォーマンスを持つRRGは、よりミラージュのようなものである可能性があることを明らかにします – モデルはレポートのテンプレートを学習することによってのみ高いBLEを得ることができます。
これは、これらのレポートの高度にパターン化された性質により、RRGにとって差し迫った問題となっています。
さらに、標準的な放射線レポートは多くの場合非常に技術的です。
患者がこれらの報告を理解するのを支援することは、患者の観点から非常に重要ですが、これは以前の研究ではほとんど見落とされています。
この作業では、日々の言語でRRGを体系的に改善できるレイマンのRRGフレームワークを提案することにより、これらの問題に直感的にアプローチします。
具体的には、私たちのフレームワークは、最初に翻訳された素人の用語データセットを提供します。
データセットの上に構築され、セマンティクスベースの評価方法を提案します。これは、膨張した数のBLEUを緩和するのに効果的で、より堅牢な評価を提供します。
レイマンの用語データセットのトレーニングは、レポートテンプレートの学習に過剰に適合するのではなく、モデルがレポートのセマンティクスに焦点を合わせることを奨励することを示しています。
最後に、元の形式によってもたらされる逆パターンと比較して、データセットによって提供されるセマンティクスのゲインの数とセマンティクスのゲインの間の有望なスケーリング法を明らかにします。

要約(オリジナル)

Radiology Report Generation (RRG) has advanced considerably with the development of multimodal generative models. Despite the progress, the field still faces significant challenges in evaluation, as existing metrics lack robustness and fairness. We reveal that, RRG with high performance on existing lexical-based metrics (e.g. BLEU) might be more of a mirage – a model can get a high BLEU only by learning the template of reports. This has become a pressing issue for RRG due to the highly patternized nature of these reports. In addition, standard radiology reports are often highly technical. Helping patients understand these reports is crucial from a patient’s perspective, yet this has been largely overlooked in previous work. In this work, we un-intuitively approach these problems by proposing the Layman’s RRG framework that can systematically improve RRG with day-to-day language. Specifically, our framework first contributes a translated Layman’s terms dataset. Building upon the dataset, we then propose a semantics-based evaluation method, which is effective in mitigating the inflated numbers of BLEU and provides more robust evaluation. We show that training on the layman’s terms dataset encourages models to focus on the semantics of the reports, as opposed to overfitting to learning the report templates. Last, we reveal a promising scaling law between the number of training examples and semantics gain provided by our dataset, compared to the inverse pattern brought by the original formats.

arxiv情報

著者 Kun Zhao,Chenghao Xiao,Sixing Yan,William K. Cheung,Kai Ye,Noura Al Moubayed,Liang Zhan,Chenghua Lin
発行日 2025-03-14 14:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク