An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation

要約

放射線診断サービスはかつてないほどの需要があり、放射線診断レポート作成の自動化への関心が高まっている。既存の視覚言語モデル(VLM)は幻覚に悩まされ、解釈性に欠け、高価な微調整を必要とする。我々は、スパースオートエンコーダ(SAE)を用いて、事前に訓練された視覚変換器からの潜在的表現を、人間が解釈可能な特徴に分解するSAE-Radを紹介する。我々のハイブリッドアーキテクチャは、最新のSAEの進歩を組み合わせ、スパース性を維持しながら、正確な潜在的再構成を実現する。既製の言語モデルを用いて、我々は、各SAE特徴について、放射線学的な記述にグランドトゥルースの報告を抽出し、それを各画像の完全な報告にまとめることで、このタスクのために大規模なモデルを微調整する必要性を排除する。我々の知る限り、SAE-Radは、下流のマルチモーダル推論タスクに力学的解釈可能性技術を明示的に使用した最初の例である。MIMIC-CXRデータセット上で、SAE-Radは、トレーニングに使用する計算資源を大幅に削減しながら、最新モデルと比較して放射線科に特化した競争力のある指標を達成した。質的解析により、SAE-Radは意味のある視覚的概念を学習し、専門家の解釈に近いレポートを生成することが明らかになった。我々の結果は、SAEがヘルスケアにおけるマルチモーダル推論を強化し、既存のVLMに代わるより解釈しやすいものを提供できることを示唆している。

要約(オリジナル)

Radiological services are experiencing unprecedented demand, leading to increased interest in automating radiology report generation. Existing Vision-Language Models (VLMs) suffer from hallucinations, lack interpretability, and require expensive fine-tuning. We introduce SAE-Rad, which uses sparse autoencoders (SAEs) to decompose latent representations from a pre-trained vision transformer into human-interpretable features. Our hybrid architecture combines state-of-the-art SAE advancements, achieving accurate latent reconstructions while maintaining sparsity. Using an off-the-shelf language model, we distil ground-truth reports into radiological descriptions for each SAE feature, which we then compile into a full report for each image, eliminating the need for fine-tuning large models for this task. To the best of our knowledge, SAE-Rad represents the first instance of using mechanistic interpretability techniques explicitly for a downstream multi-modal reasoning task. On the MIMIC-CXR dataset, SAE-Rad achieves competitive radiology-specific metrics compared to state-of-the-art models while using significantly fewer computational resources for training. Qualitative analysis reveals that SAE-Rad learns meaningful visual concepts and generates reports aligning closely with expert interpretations. Our results suggest that SAEs can enhance multimodal reasoning in healthcare, providing a more interpretable alternative to existing VLMs.

arxiv情報

著者 Ahmed Abdulaal,Hugo Fry,Nina Montaña-Brown,Ayodeji Ijishakin,Jack Gao,Stephanie Hyland,Daniel C. Alexander,Daniel C. Castro
発行日 2024-10-04 11:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク