Learning disentangled representations for explainable chest X-ray classification using Dirichlet VAEs

要約

本研究では、胸部X線画像(CXR)の分離潜在表現を学習するためのDirichlet Variational Autoencoder(DirVAE)の利用を検討する。我々の作業仮説は、Dirichlet事前分布によって促進される分布の疎密が、CXR画像のマルチラベル分類という複雑なタスクのために分離された特徴学習を促進することである。DirVAEはCheXpertデータベースのCXR画像を用いて学習され、DirVAEモデルによって学習されたマルチモーダル潜在表現の予測能力は、クラス固有の特徴に従って潜在因子の分離を強化する目的で、補助的にマルチラベル分類タスクを実装することで調査された。DirVAEを用いて学習した潜在空間の予測性能と説明可能性をそれぞれ定量的、定性的に評価し、標準的なガウス型事前VAE(GVAE)と比較した。本研究では、説明可能なマルチラベル分類のための新しいアプローチとして、注目するクラスごとに勾配誘導型潜在トラバースを行う手法を紹介する。その結果、DirVAEはGVAEにはない潜在的な要因をクラス固有の視覚的特徴に分離することができ、GVAEと比較して予測性能がわずかに向上することが示された。また、学習させたDirVAEに我々の説明可能手法を適用することで、CXR画像中の臨床的に関心のあるクラスに関連する領域を強調できること、さらに、偽の特徴相関に依存して分類するケースを識別できることを視覚的事例を用いて示す。

要約(オリジナル)

This study explores the use of the Dirichlet Variational Autoencoder (DirVAE) for learning disentangled latent representations of chest X-ray (CXR) images. Our working hypothesis is that distributional sparsity, as facilitated by the Dirichlet prior, will encourage disentangled feature learning for the complex task of multi-label classification of CXR images. The DirVAE is trained using CXR images from the CheXpert database, and the predictive capacity of multi-modal latent representations learned by DirVAE models is investigated through implementation of an auxiliary multi-label classification task, with a view to enforce separation of latent factors according to class-specific features. The predictive performance and explainability of the latent space learned using the DirVAE were quantitatively and qualitatively assessed, respectively, and compared with a standard Gaussian prior-VAE (GVAE). We introduce a new approach for explainable multi-label classification in which we conduct gradient-guided latent traversals for each class of interest. Study findings indicate that the DirVAE is able to disentangle latent factors into class-specific visual features, a property not afforded by the GVAE, and achieve a marginal increase in predictive performance relative to GVAE. We generate visual examples to show that our explainability method, when applied to the trained DirVAE, is able to highlight regions in CXR images that are clinically relevant to the class(es) of interest and additionally, can identify cases where classification relies on spurious feature correlations.

arxiv情報

著者 Rachael Harkness,Alejandro F Frangi,Kieran Zucker,Nishant Ravikumar
発行日 2023-02-06 18:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク