要約
胸部 X 線写真から放射線学レポートを生成するために設計された、放射線学に焦点を当てた視覚言語モデルを紹介します。
大規模言語モデル (LLM) が事前トレーニングされたビジョン エンコーダーと連携するとマルチモーダル機能を獲得できるという以前の発見に基づいて、胸部 X 線画像でも同様の可能性を実証します。
この統合により、胸部 X 線画像を理解して説明するモデルの能力が強化されます。
私たちのモデルは、画像エンコーダーと Vicuna-7B アーキテクチャに基づいた微調整された LLM を組み合わせており、放射線医学レポートのさまざまなセクションを顕著な精度で生成できるようにしています。
トレーニング プロセスには 2 段階のアプローチが含まれます: (i) LLM を使用した胸部 X 線特徴の初期位置合わせ (ii) 続いて放射線医学レポート生成のための微調整。
要約(オリジナル)
We introduce a radiology-focused visual language model designed to generate radiology reports from chest X-rays. Building on previous findings that large language models (LLMs) can acquire multimodal capabilities when aligned with pretrained vision encoders, we demonstrate similar potential with chest X-ray images. This integration enhances the ability of model to understand and describe chest X-ray images. Our model combines an image encoder with a fine-tuned LLM based on the Vicuna-7B architecture, enabling it to generate different sections of a radiology report with notable accuracy. The training process involves a two-stage approach: (i) initial alignment of chest X-ray features with the LLM (ii) followed by fine-tuning for radiology report generation.
arxiv情報
著者 | Xi Zhang,Zaiqiao Meng,Jake Lever,Edmond S. L. Ho |
発行日 | 2024-12-06 11:14:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google