Cross-modal Prototype Driven Network for Radiology Report Generation

要約

放射線レポート生成(RRG)は、人間のような言語で放射線画像を自動的に記述することを目的としており、放射線科医の作業をサポートする可能性があり、手動レポートの負担を軽減します。
以前のアプローチでは、エンコーダーとデコーダーのアーキテクチャを採用し、シングルモーダルの特徴学習に焦点を当てていることがよくありますが、クロスモーダルの特徴の相互作用を調査する研究はほとんどありません。
ここでは、クロスモーダルパターン学習を促進し、それを活用して放射線レポート生成のタスクを改善するためのクロスモーダルプロトタイプ駆動型ネットワーク(XPRONET)を提案します。
これは、3つの適切に設計された、完全に微分可能で補完的なモジュールによって実現されます。クロスモーダルプロトタイプを記録するための共有クロスモーダルプロトタイプマトリックス。
クロスモーダルプロトタイプを学習し、クロスモーダル情報を視覚的およびテキスト的特徴に埋め込むためのクロスモーダルプロトタイプネットワーク。
マルチラベルプロトタイプ学習を可能にし、強化するための改善されたマルチラベル対照損失。
XPRONETは、IU-XrayおよびMIMIC-CXRベンチマークで大幅な改善を実現し、そのパフォーマンスはIU-Xrayで大幅に向上し、MIMIC-CXRで同等のパフォーマンスを発揮します。

要約(オリジナル)

Radiology report generation (RRG) aims to describe automatically a radiology image with human-like language and could potentially support the work of radiologists, reducing the burden of manual reporting. Previous approaches often adopt an encoder-decoder architecture and focus on single-modal feature learning, while few studies explore cross-modal feature interaction. Here we propose a Cross-modal PROtotype driven NETwork (XPRONET) to promote cross-modal pattern learning and exploit it to improve the task of radiology report generation. This is achieved by three well-designed, fully differentiable and complementary modules: a shared cross-modal prototype matrix to record the cross-modal prototypes; a cross-modal prototype network to learn the cross-modal prototypes and embed the cross-modal information into the visual and textual features; and an improved multi-label contrastive loss to enable and enhance multi-label prototype learning. XPRONET obtains substantial improvements on the IU-Xray and MIMIC-CXR benchmarks, where its performance exceeds recent state-of-the-art approaches by a large margin on IU-Xray and comparable performance on MIMIC-CXR.

arxiv情報

著者 Jun Wang,Abhir Bhalerao,Yulan He
発行日 2022-07-11 12:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク