Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement

要約

最近、視覚言語表現学習は医療基盤モデルの構築において目覚ましい進歩を遂げており、臨床研究と医療の状況を変革する計り知れない可能性を秘めています。
基礎的な仮説は、放射線医学レポートに埋め込まれた豊富な知識が学習プロセスを効果的に支援および導き、追加のラベルの必要性を減らすことができるというものです。
ただし、これらのレポートは複雑になる傾向があり、場合によっては冗長な記述で構成されているため、表現の学習が困難になり、重要な意味論的な情報を取得できなくなります。
この論文は、重要な意味論的知識を重視したレポート改良方法を提案することにより、新しい反復的な視覚言語表現学習フレームワークを開発します。
特に、生の放射線医学レポートは、構築された臨床辞書と 2 つのモデルに最適化された知識強化メトリクスに従って、重要な情報を強調するように調整されます。
反復フレームワークは、生のレポートに基づいて患者の状態を一般的に理解することから始めて、段階的に学習するように設計されており、きめの細かい分析タスクに不可欠な重要な情報を徐々に絞り込んで抽出します。
提案されたフレームワークの有効性は、疾患分類、関心領域のセグメンテーション、フレーズグラウンディングなど、さまざまな下流の医用画像分析タスクで検証されています。
私たちのフレームワークは、微調整設定とゼロショット設定の両方で 7 つの最先端の方法を上回り、さまざまな臨床応用に対する有望な可能性を示しています。

要約(オリジナル)

Recently, vision-language representation learning has made remarkable advancements in building up medical foundation models, holding immense potential for transforming the landscape of clinical research and medical care. The underlying hypothesis is that the rich knowledge embedded in radiology reports can effectively assist and guide the learning process, reducing the need for additional labels. However, these reports tend to be complex and sometimes even consist of redundant descriptions that make the representation learning too challenging to capture the key semantic information. This paper develops a novel iterative vision-language representation learning framework by proposing a key semantic knowledge-emphasized report refinement method. Particularly, raw radiology reports are refined to highlight the key information according to a constructed clinical dictionary and two model-optimized knowledge-enhancement metrics. The iterative framework is designed to progressively learn, starting from gaining a general understanding of the patient’s condition based on raw reports and gradually refines and extracts critical information essential to the fine-grained analysis tasks. The effectiveness of the proposed framework is validated on various downstream medical image analysis tasks, including disease classification, region-of-interest segmentation, and phrase grounding. Our framework surpasses seven state-of-the-art methods in both fine-tuning and zero-shot settings, demonstrating its encouraging potential for different clinical applications.

arxiv情報

著者 Weijian Huang,Cheng Li,Hao Yang,Jiarun Liu,Yong Liang,Hairong Zheng,Shanshan Wang
発行日 2024-09-04 15:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク