要約
モデルの解釈可能性は、現代の最先端の深層学習モデルで観察される進歩とはまだ一致していない重要な課題です。
特に、深層学習を利用した視覚タスクは、医療画像などのより特殊な領域で採用されるために、解釈可能性が必要です。
Explainable AI (XAI) の分野では、初期の畳み込みニューラル ネットワークとともにビジョン モデルを解釈する方法が開発されましたが、最近の XAI 研究は主に顕著性マップを介して属性を割り当てることに焦点を当てています。
そのため、これらの方法はサンプルレベルで説明を提供することに限定されており、多くの説明可能性方法は広範囲の視覚モデルにわたる適応性が低いという問題があります。
私たちの研究では、ビジョンモデルの説明可能性を新しい視点から再考し、モデルがトレーニング中に学習した一般的な入力構造を調査します。
この目的を達成するために、「視覚モデルはマスクされたイメージをどのように埋めるのか」という質問をします。
標準視覚データセットと事前トレーニング済みモデルの実験により、一貫したパターンが明らかになり、最新の機械学習プラットフォームに追加のモデルに依存しない説明可能性ツールとして統合できる可能性があります。
コードは \url{https://github.com/BoTZ-TND/FillingTheBlanks.git} で入手できます。
要約(オリジナル)
Model interpretability is a key challenge that has yet to align with the advancements observed in contemporary state-of-the-art deep learning models. In particular, deep learning aided vision tasks require interpretability, in order for their adoption in more specialized domains such as medical imaging. Although the field of explainable AI (XAI) developed methods for interpreting vision models along with early convolutional neural networks, recent XAI research has mainly focused on assigning attributes via saliency maps. As such, these methods are restricted to providing explanations at a sample level, and many explainability methods suffer from low adaptability across a wide range of vision models. In our work, we re-think vision-model explainability from a novel perspective, to probe the general input structure that a model has learnt during its training. To this end, we ask the question: ‘How would a vision model fill-in a masked-image’. Experiments on standard vision datasets and pre-trained models reveal consistent patterns, and could be intergrated as an additional model-agnostic explainability tool in modern machine-learning platforms. The code will be available at \url{https://github.com/BoTZ-TND/FillingTheBlanks.git}
arxiv情報
著者 | Pathirage N. Deelaka,Tharindu Wickremasinghe,Devin Y. De Silva,Lisara N. Gajaweera |
発行日 | 2024-11-15 15:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google