VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback

要約

人工知能(AI)がヘルスケアの中心になるにつれて、説明可能で信頼できるモデルの需要が最も重要です。
胸部X線(CXR)の現在のレポート生成システムは、多くの場合、専門家の監視なしに出力を検証するためのメカニズムを欠いており、信頼性と解釈可能性に関する懸念を提起します。
これらの課題に対処するために、AI生成された医療報告のセマンティックアライメントとローカリゼーションの精度を強化するために設計された新しいマルチモーダルフレームワークを提案します。
フレームワークには、テキストプロンプトに基づいてCXR画像の病理を識別およびローカル化するフレーズグラウンドモデルと、解剖学的忠実度を維持しながらプロンプトから合成CXR画像を生成するテキスト間拡散モジュールの2つの重要なモジュールを統合します。
元の画像と生成された画像間の機能を比較することにより、デュアルスコアリングシステムを導入します。1つのスコアはローカリゼーションの精度を定量化し、もう1つはセマンティックの一貫性を評価します。
このアプローチは、既存の方法を大幅に上回り、病理の局在化とテキストから画像へのアラインメントで最先端の結果を達成します。
デュアルスコアリング評価システムと相まって、拡散モデルと拡散モデルとの統合は、レポート品質を検証するための堅牢なメカニズムを提供し、医療イメージングでより信頼できる透明性のAIへの道を開きます。

要約(オリジナル)

As artificial intelligence (AI) becomes increasingly central to healthcare, the demand for explainable and trustworthy models is paramount. Current report generation systems for chest X-rays (CXR) often lack mechanisms for validating outputs without expert oversight, raising concerns about reliability and interpretability. To address these challenges, we propose a novel multimodal framework designed to enhance the semantic alignment and localization accuracy of AI-generated medical reports. Our framework integrates two key modules: a Phrase Grounding Model, which identifies and localizes pathologies in CXR images based on textual prompts, and a Text-to-Image Diffusion Module, which generates synthetic CXR images from prompts while preserving anatomical fidelity. By comparing features between the original and generated images, we introduce a dual-scoring system: one score quantifies localization accuracy, while the other evaluates semantic consistency. This approach significantly outperforms existing methods, achieving state-of-the-art results in pathology localization and text-to-image alignment. The integration of phrase grounding with diffusion models, coupled with the dual-scoring evaluation system, provides a robust mechanism for validating report quality, paving the way for more trustworthy and transparent AI in medical imaging.

arxiv情報

著者 Sayeh Gholipour Picha,Dawood Al Chanti,Alice Caplier
発行日 2025-01-29 16:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク