Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

要約

前立腺画像レポートおよびデータ システム (PI-RADS) は、MRI 画像による臨床的に重大な前立腺がんの診断において極めて重要です。
現在の深層学習ベースの PI-RADS スコアリング方法には、放射線科医が利用する重要な PI-RADS 臨床ガイドライン (PICG) が組み込まれていないことが多く、スコアリングの精度が損なわれる可能性があります。
この論文では、マルチモーダル大規模言語モデル (MLLM) を適応させて、追加のアノテーションやネットワーク パラメーターを使用せずに PICG を PI-RADS スコアリングに組み込む新しいアプローチを紹介します。
PICG を効果的に統合しながら、もともと自然画像でトレーニングされた MLLM を MRI データ ドメインに適応させることを目的とした 2 段階の微調整プロセスを紹介します。
最初の段階では、3D MRI 画像入力の処理に特化したドメイン アダプター層を開発し、MRI モダリティを効果的に区別するための MLLM 命令を設計します。
第 2 段階では、PICG をモデルのガイド命令に変換して、PICG ガイド付き画像特徴を生成します。
特徴の抽出を通じて、スコアリング ネットワークの特徴を PICG ガイド付き画像特徴と調整し、スコアリング ネットワークが PICG 情報を効果的に組み込めるようにします。
私たちは公開データセットでモデルを開発し、それを実際の困難な社内データセットで評価します。
実験結果は、私たちのアプローチが現在のスコアリング ネットワークのパフォーマンスを向上させることを示しています。

要約(オリジナル)

The Prostate Imaging Reporting and Data System (PI-RADS) is pivotal in the diagnosis of clinically significant prostate cancer through MRI imaging. Current deep learning-based PI-RADS scoring methods often lack the incorporation of essential PI-RADS clinical guidelines~(PICG) utilized by radiologists, potentially compromising scoring accuracy. This paper introduces a novel approach that adapts a multi-modal large language model (MLLM) to incorporate PICG into PI-RADS scoring without additional annotations and network parameters. We present a two-stage fine-tuning process aimed at adapting MLLMs originally trained on natural images to the MRI data domain while effectively integrating the PICG. In the first stage, we develop a domain adapter layer specifically tailored for processing 3D MRI image inputs and design the MLLM instructions to differentiate MRI modalities effectively. In the second stage, we translate PICG into guiding instructions for the model to generate PICG-guided image features. Through feature distillation, we align scoring network features with the PICG-guided image feature, enabling the scoring network to effectively incorporate the PICG information. We develop our model on a public dataset and evaluate it in a real-world challenging in-house dataset. Experimental results demonstrate that our approach improves the performance of current scoring networks.

arxiv情報

著者 Tiantian Zhang,Manxi Lin,Hongda Guo,Xiaofan Zhang,Ka Fung Peter Chiu,Aasa Feragen,Qi Dou
発行日 2024-05-14 17:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク