Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG

要約

ディープラーニングは高度な医療画像分類を実現しますが、解釈可能性の問題が臨床での採用を妨げています。
この研究では、コンセプトボトルネックモデル (CBM) とレポート生成のためのマルチエージェント検索拡張生成 (RAG) システムを使用することにより、胸部 X 線 (CXR) 分類の解釈可能性が向上しました。
視覚的特徴と臨床概念の間の関係をモデル化することで、マルチエージェント RAG システムが放射線科レポートを生成するように導く解釈可能な概念ベクトルを作成し、臨床関連性、説明可能性、透明性を強化します。
LLM を審査員として使用して生成されたレポートを評価すると、モデルの出力の解釈可能性と臨床的有用性が確認されました。
COVID-QU データセットでは、私たちのモデルは 81% の分類精度を達成し、5 つの主要な指標が 84% ~ 90% の範囲にある堅牢なレポート生成パフォーマンスを実証しました。
この解釈可能なマルチエージェント フレームワークは、高性能 AI と、臨床現場で信頼性の高い AI 主導の CXR 分析に必要な説明可能性の間のギャップを埋めます。

要約(オリジナル)

Deep learning has advanced medical image classification, but interpretability challenges hinder its clinical adoption. This study enhances interpretability in Chest X-ray (CXR) classification by using concept bottleneck models (CBMs) and a multi-agent Retrieval-Augmented Generation (RAG) system for report generation. By modeling relationships between visual features and clinical concepts, we create interpretable concept vectors that guide a multi-agent RAG system to generate radiology reports, enhancing clinical relevance, explainability, and transparency. Evaluation of the generated reports using an LLM-as-a-judge confirmed the interpretability and clinical utility of our model’s outputs. On the COVID-QU dataset, our model achieved 81% classification accuracy and demonstrated robust report generation performance, with five key metrics ranging between 84% and 90%. This interpretable multi-agent framework bridges the gap between high-performance AI and the explainability required for reliable AI-driven CXR analysis in clinical settings.

arxiv情報

著者 Hasan Md Tusfiqur Alam,Devansh Srivastav,Md Abdul Kadir,Daniel Sonntag
発行日 2024-12-20 17:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, eess.IV パーマリンク