KiUT: Knowledge-injected U-Transformer for Radiology Report Generation


放射線医学レポートの生成は、X 線画像から臨床的に正確で一貫した段落を自動的に生成することを目的としており、これにより放射線科医はレポート作成の重荷から解放されます。
私たちは、マルチレベルの視覚表現を学習し、単語予測のための文脈的および臨床的知識を使用して情報を適応的に抽出するための知識注入 U トランスフォーマー (KiUT) を提案します。
詳細には、エンコーダーとデコーダー間の U 接続スキーマは、異なるモダリティ間の相互作用をモデル化するように設計されています。
実験的に、私たちは広く使用されている 2 つのベンチマーク データセット、IU-Xray と MIMIC-CXR で最先端の手法を上回るパフォーマンスを示しました。


Radiology report generation aims to automatically generate a clinically accurate and coherent paragraph from the X-ray image, which could relieve radiologists from the heavy burden of report writing. Although various image caption methods have shown remarkable performance in the natural image field, generating accurate reports for medical images requires knowledge of multiple modalities, including vision, language, and medical terminology. We propose a Knowledge-injected U-Transformer (KiUT) to learn multi-level visual representation and adaptively distill the information with contextual and clinical knowledge for word prediction. In detail, a U-connection schema between the encoder and decoder is designed to model interactions between different modalities. And a symptom graph and an injected knowledge distiller are developed to assist the report generation. Experimentally, we outperform state-of-the-art methods on two widely used benchmark datasets: IU-Xray and MIMIC-CXR. Further experimental results prove the advantages of our architecture and the complementary benefits of the injected knowledge.


著者 Zhongzhen Huang,Xiaofan Zhang,Shaoting Zhang
発行日 2023-06-20 07:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク