Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism

要約

胸部X線画像の検査は、さまざまな胸部疾患を検出する上で重要な要素です。
この研究では、クロスモーダルの注意とGPT-4ベースのトランスデコーダーを備えたVision Transformer(VIT)エンコーダーを統合する新しい画像説明生成モデルを紹介します。
VITは、胸部X線から高品質の視覚機能を捉えています。これらは、画像の説明の精度、コンテキスト、豊かさを改善するために、クロスモーダルの注意を払ってテキストデータと融合しています。
GPT-4デコーダーは、これらの融合機能を正確で関連性のあるキャプションに変換します。
このモデルは、国立衛生研究所(NIH)およびインディアナ大学(IU)チェストX線データセットでテストされました。
IUデータセットでは、0.854(B-1)、0.883(Cider)、0.759(Meteor)、および0.712(Rouge-L)のスコアを達成しました。
NIHデータセットでは、BLEU 1-4(0.825、0.788、0.765、0.752)、Cider(0.857)、Meteor(0.726)、およびRouge-L(0.705)のすべてのメトリックで最高のパフォーマンスを達成しました。
このフレームワークには、胸部X線評価を強化し、放射線科医がより正確で効率的な診断を支援する可能性があります。

要約(オリジナル)

The examination of chest X-ray images is a crucial component in detecting various thoracic illnesses. This study introduces a new image description generation model that integrates a Vision Transformer (ViT) encoder with cross-modal attention and a GPT-4-based transformer decoder. The ViT captures high-quality visual features from chest X-rays, which are fused with text data through cross-modal attention to improve the accuracy, context, and richness of image descriptions. The GPT-4 decoder transforms these fused features into accurate and relevant captions. The model was tested on the National Institutes of Health (NIH) and Indiana University (IU) Chest X-ray datasets. On the IU dataset, it achieved scores of 0.854 (B-1), 0.883 (CIDEr), 0.759 (METEOR), and 0.712 (ROUGE-L). On the NIH dataset, it achieved the best performance on all metrics: BLEU 1–4 (0.825, 0.788, 0.765, 0.752), CIDEr (0.857), METEOR (0.726), and ROUGE-L (0.705). This framework has the potential to enhance chest X-ray evaluation, assisting radiologists in more precise and efficient diagnosis.

arxiv情報

著者 Lakshita Agarwal,Bindu Verma
発行日 2025-04-23 14:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク