Leveraging Multimodal Models for Enhanced Neuroimaging Diagnostics in Alzheimer’s Disease

要約

大規模言語モデル (LLM) と視覚言語モデル (VLM) の急速な進歩により、医療診断、特に X 線などのデータセットが人間が作成した診断レポートと組み合わせられる放射線医学において大きな可能性が示されています。
しかし、神経画像分野、特にアルツハイマー病などの疾患では、モデルの微調整に利用できる包括的な診断レポートが不足しているため、研究に大きなギャップが存在します。
この論文では、663 人の患者で構成される OASIS-4 データセットの構造化データに対して GPT-4o-mini を使用して合成診断レポートを生成することで、このギャップに対処しています。
合成レポートをトレーニングと検証のグラウンド トゥルースとして使用し、事前トレーニング済みの BiomedCLIP および T5 モデルを活用して、データセット内の画像から直接神経学的レポートを生成しました。
私たちが提案した方法は、BLEU-4 スコア 0.1827、ROUGE-L スコア 0.3719、METEOR スコア 0.4163 を達成し、臨床的に適切で正確な診断レポートを生成する可能性を明らかにしました。

要約(オリジナル)

The rapid advancements in Large Language Models (LLMs) and Vision-Language Models (VLMs) have shown great potential in medical diagnostics, particularly in radiology, where datasets such as X-rays are paired with human-generated diagnostic reports. However, a significant research gap exists in the neuroimaging field, especially for conditions such as Alzheimer’s disease, due to the lack of comprehensive diagnostic reports that can be utilized for model fine-tuning. This paper addresses this gap by generating synthetic diagnostic reports using GPT-4o-mini on structured data from the OASIS-4 dataset, which comprises 663 patients. Using the synthetic reports as ground truth for training and validation, we then generated neurological reports directly from the images in the dataset leveraging the pre-trained BiomedCLIP and T5 models. Our proposed method achieved a BLEU-4 score of 0.1827, ROUGE-L score of 0.3719, and METEOR score of 0.4163, revealing its potential in generating clinically relevant and accurate diagnostic reports.

arxiv情報

著者 Francesco Chiumento,Mingming Liu
発行日 2024-11-12 15:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.IV パーマリンク