Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

要約

医療ビジョン言語事前トレーニング (VLP) は研究の最前線として浮上しており、クエリ画像と各疾患のテキスト説明を比較することでゼロショットの病理学的認識を可能にします。
生物医学テキストのセマンティクスが複雑であるため、現在の方法では、構造化されていないレポート内の重要な病理学的所見と医療画像を一致させるのが困難です。
これにより、対象疾患のテキスト表現との不整合が生じます。
この論文では、病状の視覚的症状に関する事前の知識を活用して、疾患の説明をその基本的な側面まで分析するように設計された新しい VLP フレームワークを紹介します。
これは、大規模な言語モデルと医療専門家に相談することで実現されます。
Transformer モジュールを統合する当社のアプローチは、入力画像を疾患のさまざまな要素と調整し、アスペクト中心の画像表現を生成します。
それぞれの側面からの一致を統合することで、画像とそれに関連する疾患との適合性が向上します。
さらに、アスペクト指向の表現を利用して、既知および未知の疾患を処理するように調整されたデュアルヘッドトランスフォーマーを提示し、包括的な検出効率を最適化します。
7 つの下流データセットで実験を実施した結果、最近の手法の精度が、可視カテゴリと未可視カテゴリでそれぞれ最大 8.56% と 17.26% 向上しました。
私たちのコードは https://github.com/HieuPhan33/MAVL でリリースされています。

要約(オリジナル)

Medical vision language pre-training (VLP) has emerged as a frontier of research, enabling zero-shot pathological recognition by comparing the query image with the textual descriptions for each disease. Due to the complex semantics of biomedical texts, current methods struggle to align medical images with key pathological findings in unstructured reports. This leads to the misalignment with the target disease’s textual representation. In this paper, we introduce a novel VLP framework designed to dissect disease descriptions into their fundamental aspects, leveraging prior knowledge about the visual manifestations of pathologies. This is achieved by consulting a large language model and medical experts. Integrating a Transformer module, our approach aligns an input image with the diverse elements of a disease, generating aspect-centric image representations. By consolidating the matches from each aspect, we improve the compatibility between an image and its associated disease. Additionally, capitalizing on the aspect-oriented representations, we present a dual-head Transformer tailored to process known and unknown diseases, optimizing the comprehensive detection efficacy. Conducting experiments on seven downstream datasets, ours improves the accuracy of recent methods by up to 8.56% and 17.26% for seen and unseen categories, respectively. Our code is released at https://github.com/HieuPhan33/MAVL.

arxiv情報

著者 Vu Minh Hieu Phan,Yutong Xie,Yuankai Qi,Lingqiao Liu,Liyang Liu,Bowen Zhang,Zhibin Liao,Qi Wu,Minh-Son To,Johan W. Verjans
発行日 2024-03-31 07:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク