Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data

要約

背景:この研究では、自動化された急性結核(TB)スクリーニングのためのSiglipおよびGemma-3Bアーキテクチャを活用する視覚言語モデル(VLM)を紹介します。
胸部X線画像と臨床ノートを統合することにより、このモデルは、特にリソースに制限された設定で、診断の精度と効率を高めることを目的としています。
方法:VLMは、胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成します。
このアーキテクチャは、視覚エンコードにSiglipとデコードにGemma-3Bを使用して、急性TB特異的病理と臨床的洞察の効果的な表現を確保しています。
結果:統合、空洞、結節を含む重要な急性結核の病理は、高精度(97%)およびリコール(96%)で検出されました。
このモデルは、TB陽性の症例を区別する際に強い空間局在能力と堅牢性を実証し、急性TB診断のための信頼できるツールになりました。
結論:VLMのマルチモーダル能力は、放射線科医への依存を減らし、急性結核スクリーニングのためのスケーラブルなソリューションを提供します。
将来の作業は、微妙な病理の検出を改善し、データセットバイアスに対処して、多様なグローバルなヘルスケア設定での一般化と適用を強化することに焦点を当てます。

要約(オリジナル)

Background: This study introduces a Vision-Language Model (VLM) leveraging SIGLIP and Gemma-3b architectures for automated acute tuberculosis (TB) screening. By integrating chest X-ray images and clinical notes, the model aims to enhance diagnostic accuracy and efficiency, particularly in resource-limited settings. Methods: The VLM combines visual data from chest X-rays with clinical context to generate detailed, context-aware diagnostic reports. The architecture employs SIGLIP for visual encoding and Gemma-3b for decoding, ensuring effective representation of acute TB-specific pathologies and clinical insights. Results: Key acute TB pathologies, including consolidation, cavities, and nodules, were detected with high precision (97percent) and recall (96percent). The model demonstrated strong spatial localization capabilities and robustness in distinguishing TB-positive cases, making it a reliable tool for acute TB diagnosis. Conclusion: The multimodal capability of the VLM reduces reliance on radiologists, providing a scalable solution for acute TB screening. Future work will focus on improving the detection of subtle pathologies and addressing dataset biases to enhance its generalizability and application in diverse global healthcare settings.

arxiv情報

著者 Ananya Ganapthy,Praveen Shastry,Naveen Kumarasami,Anandakumar D,Keerthana R,Mounigasri M,Varshinipriya M,Kishore Prasath Venkatesh,Bargava Subramanian,Kalyan Sivasailam
発行日 2025-04-01 06:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, 68U10, 92C50, 92C55, cs.AI, cs.CV, cs.LG, eess.IV パーマリンク