MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training

要約

本論文では,放射線科医が日常的に行っている画像とテキストの対を利用し,医療に特化した知識で自己教師付き視覚言語事前学習(VLP)を強化する問題を考察する.特に、我々は以下の貢献を行う。第一に、生のレポートを直接処理する既存の研究とは異なり、我々は医療エンティティを抽出するために新しいレポートフィルタを採用し、言語文法から不必要な複雑さを回避し、監視信号を強化する。第二に、外部の知識記述ベースに問い合わせることにより、新しいエンティティ埋め込みモジュールを提案し、医療ドメインが与える追加情報の豊富なコンテキストを利用し、言語埋め込み空間においてエンティティ間の関係を暗黙的に構築する。第三に、自己教師あり学習により、画像パッチレベルで実体記述と視覚信号を空間的に整合させるための新しいTransformerベースの融合モデルを提案し、空間的接地機能を実現する。第四に、提案アーキテクチャの有効性を検証するために徹底した実験を行い、多くの公的ベンチマーク(例:Spirit.g.,第四に、提案アーキテクチャの有効性を徹底的に検証する実験を行い、ChestX-ray14、RSNA Pneumonia、SIIM-ACR Pneumothorax、COVIDx CXR-2、COVID Rural、およびEdemaSeverityなどの多数の公開ベンチマークでベンチマークを実施する。ゼロショットと微調整の両方の設定において、我々のモデルは、病気の分類と接地に関して、以前の手法と比較して強力な性能を実証した。

要約(オリジナル)

In this paper, we consider the problem of enhancing self-supervised visual-language pre-training (VLP) with medical-specific knowledge, by exploiting the paired image-text reports from the radiological daily practice. In particular, we make the following contributions: First, unlike existing works that directly process the raw reports, we adopt a novel report filter to extract the medical entities, avoiding unnecessary complexity from language grammar and enhancing the supervision signals; Second, we propose a novel entity embedding module by querying an external knowledge description base, to exploit the rich context of additional information that the medical domain affords, and implicitly build relationships between entities in the language embedding space; Third, we propose a novel Transformer-based fusion model for spatially aligning the entity description with visual signals at the image patch level only with self-supervised learning, thus enabling the ability for spatial grounding; Fourth, we conduct thorough experiments to validate the effectiveness of our proposed architecture, and benchmark on numerous public benchmarks e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-2, COVID Rural, and EdemaSeverity. In both zero-shot and fine-tuning settings, our model has demonstrated strong performance compared with the former methods on disease classification and grounding.

arxiv情報

著者 Chaoyi Wu,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-01-05 18:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, eess.IV パーマリンク