IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training

要約

医療視覚言語事前トレーニング (VLP) の分野では、臨床レポートと関連する医療画像の両方からテキストと画像の特徴を導き出すことに多大な努力が払われてきました。
しかし、既存の方法のほとんどは、臨床レポートに固有の階層構造を活用する機会を見逃している可能性があります。臨床レポートは一般に、説明的な内容の「所見」と最終的な観察のための「感想」に分割されます。
現在の医療 VLP アプローチでは、このリッチで構造化された形式を利用する代わりに、レポートが統合されたエンティティまたは断片化されたトークンに単純化されることがよくあります。
この研究では、階層的な視覚と言語の整合性を備えた医療レポートから構造情報を学習するための、IMITATE という名前の新しい臨床事前ガイド付き VLP フレームワークを提案します。
このフレームワークは、胸部 X 線 (CXR) 画像からマルチレベルの視覚的特徴を導き出し、これらの特徴を、階層的な医療レポートにエンコードされた説明および決定的なテキストと個別に調整します。
さらに、クロスモーダル学習には、臨床に基づいた新しいコントラスト損失が導入されており、これにより、コントラスト学習でサンプル相関を定式化する際の臨床の事前知識が考慮されます。
提案されたモデル IMITATE は、5 つの医療画像処理の下流タスクにまたがる 6 つの異なるデータセットにわたってベースライン VLP 手法を上回ります。
包括的な実験結果は、視覚と言語の整合のために医療レポートの階層構造を統合することの利点を強調しています。

要約(オリジナル)

In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings’ for descriptive content and `impressions’ for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.

arxiv情報

著者 Che Liu,Sibo Cheng,Miaojing Shi,Anand Shah,Wenjia Bai,Rossella Arcucci
発行日 2024-09-30 16:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク