Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution

要約

ビジョン言語の事前トレーニング済みモデルは目覚ましい成功を収めていますが、安全性が重要な設定への適用は解釈可能性の欠如により制限されます。
CLIP などの視覚言語モデルの解釈可能性を向上させるために、関連する視覚的およびテキスト的特徴を維持しながら無関係な情報を圧縮する潜在表現を学習するマルチモーダル情報ボトルネック (M2IB) アプローチを提案します。
私たちは、M2IB をビジョン言語の事前トレーニング済みモデルの属性分析にどのように適用して、医療などの安全性が重要な領域に適用した場合に属性の精度を高め、そのようなモデルの解釈可能性を向上させるかを示します。
重要なのは、一般的に使用されているユニモーダル アトリビューション手法とは異なり、M2IB はグラウンド トゥルース ラベルを必要としないため、複数のモダリティがあるがグラウンド トゥルース データが利用できない場合に、ビジョン言語の事前トレーニング済みモデルの表現を監査できるようになります。
CLIP を例として使用して、M2IB アトリビューションの有効性を実証し、それが勾配ベース、摂動ベース、および注意ベースのアトリビューション手法よりも質的および量的に優れていることを示します。

要約(オリジナル)

Vision-language pretrained models have seen remarkable success, but their application to safety-critical settings is limited by their lack of interpretability. To improve the interpretability of vision-language models such as CLIP, we propose a multi-modal information bottleneck (M2IB) approach that learns latent representations that compress irrelevant information while preserving relevant visual and textual features. We demonstrate how M2IB can be applied to attribution analysis of vision-language pretrained models, increasing attribution accuracy and improving the interpretability of such models when applied to safety-critical domains such as healthcare. Crucially, unlike commonly used unimodal attribution methods, M2IB does not require ground truth labels, making it possible to audit representations of vision-language pretrained models when multiple modalities but no ground-truth data is available. Using CLIP as an example, we demonstrate the effectiveness of M2IB attribution and show that it outperforms gradient-based, perturbation-based, and attention-based attribution methods both qualitatively and quantitatively.

arxiv情報

著者 Ying Wang,Tim G. J. Rudner,Andrew Gordon Wilson
発行日 2023-12-28 18:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク