要約
胸部 X 線写真の自動読影には、正確な疾患分類と詳細な放射線医学レポートの作成の両方が必要であり、臨床ワークフローにおいて大きな課題となっています。
現在のアプローチは、解釈可能性を犠牲にして分類精度に重点を置くか、画像キャプション技術を使用して詳細ではあるが信頼性が低い可能性のあるレポートを生成するかのどちらかです。
この研究では、ビジョン言語モデル (VLM) の予測精度と大規模言語モデル (LLM) の推論機能を組み合わせた新しいフレームワークである RadAlign を紹介します。
放射線科医のワークフローからインスピレーションを得た RadAlign は、まず特殊な VLM を採用して視覚的特徴を主要な医療概念と一致させ、複数の疾患にわたって平均 AUC 0.885 という優れた疾患分類を実現します。
これらの認識された病状は、調整された視覚言語空間でテキストベースの概念として表現され、LLM ベースのレポート生成を促すために使用されます。
RadAlign は、過去の同様のケースに基づいて出力を行う検索拡張生成メカニズムによって強化され、GREEN スコア 0.678 という優れたレポート品質を提供し、最先端の手法の 0.634 を上回ります。
当社のフレームワークは、強力な臨床解釈可能性を維持しながら幻覚を軽減し、統合された予測および生成 AI を通じて自動化された医療画像およびレポート分析を進歩させます。
コードは https://github.com/difeigu/RadAlign で入手できます。
要約(オリジナル)
Automated chest radiographs interpretation requires both accurate disease classification and detailed radiology report generation, presenting a significant challenge in the clinical workflow. Current approaches either focus on classification accuracy at the expense of interpretability or generate detailed but potentially unreliable reports through image captioning techniques. In this study, we present RadAlign, a novel framework that combines the predictive accuracy of vision-language models (VLMs) with the reasoning capabilities of large language models (LLMs). Inspired by the radiologist’s workflow, RadAlign first employs a specialized VLM to align visual features with key medical concepts, achieving superior disease classification with an average AUC of 0.885 across multiple diseases. These recognized medical conditions, represented as text-based concepts in the aligned visual-language space, are then used to prompt LLM-based report generation. Enhanced by a retrieval-augmented generation mechanism that grounds outputs in similar historical cases, RadAlign delivers superior report quality with a GREEN score of 0.678, outperforming state-of-the-art methods’ 0.634. Our framework maintains strong clinical interpretability while reducing hallucinations, advancing automated medical imaging and report analysis through integrated predictive and generative AI. Code is available at https://github.com/difeigu/RadAlign.
arxiv情報
著者 | Difei Gu,Yunhe Gao,Yang Zhou,Mu Zhou,Dimitris Metaxas |
発行日 | 2025-01-13 17:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google