Forward Learning for Gradient-based Black-box Saliency Map Generation

要約

勾配ベースの顕著性マップは、ディープ ニューラル ネットワークの決定を説明するために広く使用されています。
ただし、ChatGPT のようなクローズドソース API など、モデルがより深くなり、よりブラックボックスになるにつれて、勾配の計算が困難になり、従来の説明方法が妨げられます。
この研究では、ブラックボックス設定で勾配を推定し、モデルの決定を解釈するための顕著性マップを生成するための新しい統合フレームワークを紹介します。
尤度比法を使用して出力と入力の勾配を推定し、それを顕著性マップの生成に利用します。
さらに、推定精度を向上させるためのブロックごとの計算手法を提案します。
ブラックボックス設定での広範な実験により、私たちの方法の有効性が検証され、生成された顕著性マップの正確な勾配推定と説明可能性が実証されました。
さらに、GPT-Vision の説明に適用することでアプローチのスケーラビリティを示し、大規模でクローズドソース、ブラックボックス モデルの時代における勾配ベースの説明手法の継続的な関連性を明らかにします。

要約(オリジナル)

Gradient-based saliency maps are widely used to explain deep neural network decisions. However, as models become deeper and more black-box, such as in closed-source APIs like ChatGPT, computing gradients become challenging, hindering conventional explanation methods. In this work, we introduce a novel unified framework for estimating gradients in black-box settings and generating saliency maps to interpret model decisions. We employ the likelihood ratio method to estimate output-to-input gradients and utilize them for saliency map generation. Additionally, we propose blockwise computation techniques to enhance estimation accuracy. Extensive experiments in black-box settings validate the effectiveness of our method, demonstrating accurate gradient estimation and explainability of generated saliency maps. Furthermore, we showcase the scalability of our approach by applying it to explain GPT-Vision, revealing the continued relevance of gradient-based explanation methods in the era of large, closed-source, and black-box models.

arxiv情報

著者 Zeliang Zhang,Mingqian Feng,Jinyang Jiang,Rongyi Zhu,Yijie Peng,Chenliang Xu
発行日 2024-07-02 16:05:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク