Anatomy-Aware Conditional Image-Text Retrieval

要約

Image-Text検索(ITR)は、特に希少疾患の場合、より効率的な臨床診断と治療のために、クエリイメージおよび/またはレポートを考慮して、データベースで関連する患者の症例を自動的に取得することにより、医療に幅広いアプリケーションを見つけ、臨床医と放射線科医を支援します。
ただし、従来のITRシステムは通常、患者のイメージ/レポートの類似性を測定するためのグローバルな画像またはテキスト表現のみに依存しています。
これにより、最適ではない検索パフォーマンスが発生します。
この論文では、クエリ画像と関連する疑わしい解剖学的領域を与えられた解剖学的位置的位置条件付き画像テキスト検索(ALC-ITR)フレームワークを提案します。
位置的に条件付けされたマルチモーダル検索を実行するために、セマンティックグローバルレベルと地域/単語レベルのアライメントを備えた医療関連の関連性領域に整合したビジョン言語(RRA-VL)モデルを学習して、一般化可能でよく整合したマルチモーダル表現を生成します。
さらに、ロケーション条件のコントラスト学習を実行して、マルチモーダル検索を改善するために、クロスペア地域レベルのコントラストをさらに利用します。
提案されているRRA-VLが、位相グラウンドタスクで最先端のローカリゼーションパフォーマンスを達成し、ロケーションコンディショニングの有無にかかわらずマルチモーダル検索パフォーマンスを満たすことを示します。
最後に、適切な既製のLLMプロンプトを使用して、検索された患者症例(解剖学的領域に条件付けられている)を与えられた説明と予備診断レポートを提供する際に提案されたALC-ITRシステムの一般化可能性と説明可能性を徹底的に調査します。

要約(オリジナル)

Image-Text Retrieval (ITR) finds broad applications in healthcare, aiding clinicians and radiologists by automatically retrieving relevant patient cases in the database given the query image and/or report, for more efficient clinical diagnosis and treatment, especially for rare diseases. However conventional ITR systems typically only rely on global image or text representations for measuring patient image/report similarities, which overlook local distinctiveness across patient cases. This often results in suboptimal retrieval performance. In this paper, we propose an Anatomical Location-Conditioned Image-Text Retrieval (ALC-ITR) framework, which, given a query image and the associated suspicious anatomical region(s), aims to retrieve similar patient cases exhibiting the same disease or symptoms in the same anatomical region. To perform location-conditioned multimodal retrieval, we learn a medical Relevance-Region-Aligned Vision Language (RRA-VL) model with semantic global-level and region-/word-level alignment to produce generalizable, well-aligned multi-modal representations. Additionally, we perform location-conditioned contrastive learning to further utilize cross-pair region-level contrastiveness for improved multi-modal retrieval. We show that our proposed RRA-VL achieves state-of-the-art localization performance in phase-grounding tasks, and satisfying multi-modal retrieval performance with or without location conditioning. Finally, we thoroughly investigate the generalizability and explainability of our proposed ALC-ITR system in providing explanations and preliminary diagnosis reports given retrieved patient cases (conditioned on anatomical regions), with proper off-the-shelf LLM prompts.

arxiv情報

著者 Meng Zheng,Jiajin Zhang,Benjamin Planche,Zhongpai Gao,Terrence Chen,Ziyan Wu
発行日 2025-03-10 15:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク