A Medical Semantic-Assisted Transformer for Radiographic Report Generation

要約

放射線写真レポートの自動生成は、医用画像を説明するための正確でセマンティックな一貫性のあるレポートを自動的に生成することを目的とした挑戦的なクロスドメイン タスクです。
この分野における最近の進歩にもかかわらず、少なくとも次の側面ではまだ多くの課題があります。
まず、放射線画像は互いに非常に似ているため、多くの既存の方法のように、CNN を視覚的特徴抽出器として使用して細かな視覚的差異を捉えることは困難です。
さらに、セマンティック情報は、生成タスク (画像キャプションなど) のパフォーマンスを向上させるために広く適用されていますが、既存の方法では、効果的な医療セマンティック機能を提供できないことがよくあります。
これらの問題を解決するために、この論文では、疎な注意を生成しながら、入力されたきめの細かい画像特徴間の高次の相互作用をキャプチャするために双線形プーリングを利用するメモリ拡張された疎な注意ブロックを提案します。
さらに、新しい医療概念生成ネットワーク (MCGN) を導入して、きめの細かいセマンティック概念を予測し、それらをガイダンスとしてレポート生成プロセスに組み込みます。
私たちの提案した方法は、最近リリースされた最大のベンチマーク MIMIC-CXR で有望なパフォーマンスを示しています。
画像のキャプションと医療レポートの生成において、複数の最先端の方法よりも優れています。

要約(オリジナル)

Automated radiographic report generation is a challenging cross-domain task that aims to automatically generate accurate and semantic-coherence reports to describe medical images. Despite the recent progress in this field, there are still many challenges at least in the following aspects. First, radiographic images are very similar to each other, and thus it is difficult to capture the fine-grained visual differences using CNN as the visual feature extractor like many existing methods. Further, semantic information has been widely applied to boost the performance of generation tasks (e.g. image captioning), but existing methods often fail to provide effective medical semantic features. Toward solving those problems, in this paper, we propose a memory-augmented sparse attention block utilizing bilinear pooling to capture the higher-order interactions between the input fine-grained image features while producing sparse attention. Moreover, we introduce a novel Medical Concepts Generation Network (MCGN) to predict fine-grained semantic concepts and incorporate them into the report generation process as guidance. Our proposed method shows promising performance on the recently released largest benchmark MIMIC-CXR. It outperforms multiple state-of-the-art methods in image captioning and medical report generation.

arxiv情報

著者 Zhanyu Wang,Mingkang Tang,Lei Wang,Xiu Li,Luping Zhou
発行日 2022-08-22 14:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク