MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training

要約

この論文では、放射線医学の日常診療からのペアの画像とテキストのレポートを活用することにより、ドメイン固有の知識を使用して医療用視覚言語事前トレーニング (VLP) を強化することを検討します。
特に、私たちは次の貢献をしています。まず、生のレポートを直接処理する既存の作品とは異なり、医療関連の情報を抽出するために新しいトリプレット抽出モジュールを採用し、言語文法からの不必要な複雑さを回避し、監督信号を強化します。
第二に、知識ベースを照会することによるエンティティ翻訳を備えた新しいトリプレットエンコーディングモジュールを提案し、医療分野の豊富なドメイン知識を活用し、言語埋め込み空間で医療エンティティ間の関係を暗黙的に構築します。
第三に、トランスフォーマーベースの融合モデルを使用して、エンティティの説明を画像パッチレベルで視覚信号と空間的に整列させ、医療診断を可能にすることを提案します。
第 4 に、徹底的な実験を行ってアーキテクチャの有効性を検証し、ChestX-ray14、RSNA Pneumonia、SIIM-ACR Pneumothorax、COVIDx CXR-2、COVID Rural、EdemaSeverity などの多数の公開ベンチマークでベンチマークを行います。
ゼロショット設定と微調整設定の両方で、モデルは疾患の分類と接地に関する以前の方法と比較して強力なパフォーマンスを示しました。

要約(オリジナル)

In this paper, we consider enhancing medical visual-language pre-training (VLP) with domain-specific knowledge, by exploiting the paired image-text reports from the radiological daily practice. In particular, we make the following contributions: First, unlike existing works that directly process the raw reports, we adopt a novel triplet extraction module to extract the medical-related information, avoiding unnecessary complexity from language grammar and enhancing the supervision signals; Second, we propose a novel triplet encoding module with entity translation by querying a knowledge base, to exploit the rich domain knowledge in medical field, and implicitly build relationships between medical entities in the language embedding space; Third, we propose to use a Transformer-based fusion model for spatially aligning the entity description with visual signals at the image patch level, enabling the ability for medical diagnosis; Fourth, we conduct thorough experiments to validate the effectiveness of our architecture, and benchmark on numerous public benchmarks, e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-2, COVID Rural, and EdemaSeverity. In both zero-shot and fine-tuning settings, our model has demonstrated strong performance compared with the former methods on disease classification and grounding.

arxiv情報

著者 Chaoyi Wu,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-03-09 12:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, eess.IV パーマリンク