KiUT: Knowledge-injected U-Transformer for Radiology Report Generation

要約

放射線医学レポートの生成は、X 線画像から臨床的に正確で一貫した段落を自動的に生成することを目的としており、これにより放射線科医はレポート作成の重荷から解放されます。
さまざまな画像キャプション手法が自然画像の分野で顕著なパフォーマンスを示していますが、医療画像の正確なレポートを作成するには、視覚、言語、医学用語など、複数のモダリティに関する知識が必要です。
私たちは、マルチレベルの視覚表現を学習し、単語予測のための文脈的および臨床的知識を使用して情報を適応的に抽出するための知識注入 U トランスフォーマー (KiUT) を提案します。
詳細には、エンコーダーとデコーダー間の U 接続スキーマは、異なるモダリティ間の相互作用をモデル化するように設計されています。
また、レポート作成を支援するために、症状グラフと注入された知識抽出ツールが開発されています。
実験的に、私たちは広く使用されている 2 つのベンチマーク データセット、IU-Xray と MIMIC-CXR で最先端の手法を上回るパフォーマンスを示しました。
さらなる実験結果は、私たちのアーキテクチャの利点と注入された知識の補完的な利点を証明しています。

要約(オリジナル)

Radiology report generation aims to automatically generate a clinically accurate and coherent paragraph from the X-ray image, which could relieve radiologists from the heavy burden of report writing. Although various image caption methods have shown remarkable performance in the natural image field, generating accurate reports for medical images requires knowledge of multiple modalities, including vision, language, and medical terminology. We propose a Knowledge-injected U-Transformer (KiUT) to learn multi-level visual representation and adaptively distill the information with contextual and clinical knowledge for word prediction. In detail, a U-connection schema between the encoder and decoder is designed to model interactions between different modalities. And a symptom graph and an injected knowledge distiller are developed to assist the report generation. Experimentally, we outperform state-of-the-art methods on two widely used benchmark datasets: IU-Xray and MIMIC-CXR. Further experimental results prove the advantages of our architecture and the complementary benefits of the injected knowledge.

arxiv情報

著者 Zhongzhen Huang,Xiaofan Zhang,Shaoting Zhang
発行日 2023-06-20 07:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク