You’ve Got Two Teachers: Co-evolutionary Image and Report Distillation for Semi-supervised Anatomical Abnormality Detection in Chest X-ray


胸部 X 線 (CXR) の解剖学的異常検出は、X 線写真における心肺の放射線学的所見の位置を特定して特徴付けることを目的としています。これにより、臨床ワークフローが迅速化され、観察上の見落としが軽減されます。
この研究では、共進化的な画像とレポートの蒸留 (CEIRD) フレームワークを提案します。このフレームワークは、ペアの放射線医学レポートからのテキスト分類された異常を視覚的検出結果に根拠付けすることにより、CXR における半教師あり異常検出にアプローチします。また、その逆も同様です。
具体的には、古典的な教師と生徒の擬似ラベル蒸留 (TSD) パラダイムに基づいて、補助レポート分類モデルをさらに導入します。このモデルの予測は、主要な視覚検出タスクにおけるレポートに基づく擬似検出ラベル洗練 (RPDLR) に使用されます。
逆に、補助レポート分類タスクでの異常誘導疑似分類ラベル洗練 (APCLR) のビジョン検出モデルの予測も使用し、ビジョンとレポート モデルが RPDLR と相互に促進する共進化戦略を提案します。
この目的を達成するために、レポートによる弱い監視を半監視 TSD パイプラインに効果的に組み込みます。
公開されている MIMIC-CXR ベンチマークの実験結果は、CEIRD がいくつかの最新の弱教師あり半教師あり手法よりも優れたパフォーマンスを示していることを示しています。


Chest X-ray (CXR) anatomical abnormality detection aims at localizing and characterising cardiopulmonary radiological findings in the radiographs, which can expedite clinical workflow and reduce observational oversights. Most existing methods attempted this task in either fully supervised settings which demanded costly mass per-abnormality annotations, or weakly supervised settings which still lagged badly behind fully supervised methods in performance. In this work, we propose a co-evolutionary image and report distillation (CEIRD) framework, which approaches semi-supervised abnormality detection in CXR by grounding the visual detection results with text-classified abnormalities from paired radiology reports, and vice versa. Concretely, based on the classical teacher-student pseudo label distillation (TSD) paradigm, we additionally introduce an auxiliary report classification model, whose prediction is used for report-guided pseudo detection label refinement (RPDLR) in the primary vision detection task. Inversely, we also use the prediction of the vision detection model for abnormality-guided pseudo classification label refinement (APCLR) in the auxiliary report classification task, and propose a co-evolution strategy where the vision and report models mutually promote each other with RPDLR and APCLR performed alternatively. To this end, we effectively incorporate the weak supervision by reports into the semi-supervised TSD pipeline. Besides the cross-modal pseudo label refinement, we further propose an intra-image-modal self-adaptive non-maximum suppression, where the pseudo detection labels generated by the teacher vision model are dynamically rectified by high-confidence predictions by the student. Experimental results on the public MIMIC-CXR benchmark demonstrate CEIRD’s superior performance to several up-to-date weakly and semi-supervised methods.


著者 Jinghan Sun,Dong Wei,Zhe Xu,Donghuan Lu,Hong Liu,Liansheng Wang,Yefeng Zheng
発行日 2023-07-18 12:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク