Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning

要約

イメージングデータからの医療報告書の生成は、臨床診療における困難なタスクのままです。
大規模な言語モデル(LLM)は、この課題に対処することに大きな期待を示していますが、医療画像データとの効果的な統合は依然として詳細な調査に値します。
この論文では、冷凍LLMと学習可能な視覚エンコーダーを組み合わせて動的なプロンプトカスタマイズメカニズムを導入する新しいマルチモーダル大手言語モデル(MLLM)であるMRG-LLMを紹介します。
私たちの主要な革新は、視覚的特徴から派生した条件付きアフィン変換を通じて個々の医療画像に合わせたインスタンス固有のプロンプトを生成することにあります。
2つの実装を提案します:プロンプトごとのおよびプロンプトブックごとのカスタマイズ、正確でターゲットを絞ったレポート生成を可能にします。
IU X線およびMIMIC-CXRデータセットに関する広範な実験は、MRG-LLMが医療報告書の生成で最先端のパフォーマンスを達成することを示しています。
私たちのコードは公開されます。

要約(オリジナル)

Medical report generation from imaging data remains a challenging task in clinical practice. While large language models (LLMs) show great promise in addressing this challenge, their effective integration with medical imaging data still deserves in-depth exploration. In this paper, we present MRG-LLM, a novel multimodal large language model (MLLM) that combines a frozen LLM with a learnable visual encoder and introduces a dynamic prompt customization mechanism. Our key innovation lies in generating instance-specific prompts tailored to individual medical images through conditional affine transformations derived from visual features. We propose two implementations: prompt-wise and promptbook-wise customization, enabling precise and targeted report generation. Extensive experiments on IU X-ray and MIMIC-CXR datasets demonstrate that MRG-LLM achieves state-of-the-art performance in medical report generation. Our code will be made publicly available.

arxiv情報

著者 Chunlei Li,Jingyang Hou,Yilei Shi,Jingliang Hu,Xiao Xiang Zhu,Lichao Mou
発行日 2025-06-18 14:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク