VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models

要約

ディープ ニューラル ネットワーク (DNN) は、タスクの自動化を可能にし、人為的エラーを削減することで、さまざまな分野に革命をもたらしました。
ただし、ブラックボックスの性質により、内部の仕組みや意思決定プロセスは不明瞭なままです。
その結果、解釈可能性の欠如により、高リスクのシナリオでのこれらのモデルの適用が制限されます。
この問題に対処するために、eXplainable Artificial Intelligence (XAI) という新興分​​野は、DNN の内部動作を説明して解釈することを目的としています。
XAI は進歩にもかかわらず、機械と人間の理解の間の意味論的なギャップ、解釈可能性とパフォーマンスの間のトレードオフ、コンテキスト固有の説明の必要性などの課題に直面しています。
これらの制限を克服するために、VALE Visual and Language Explain という名前の新しいマルチモーダル フレームワークを提案します。
VALE は、説明可能な AI 技術と高度な言語モデルを統合して、包括的な説明を提供します。
このフレームワークは、XAI ツールからの視覚的な説明、高度なゼロショット画像セグメンテーション モデル、および視覚言語モデルを利用して、対応するテキスト説明を生成します。
VALE は、視覚的な説明とテキストによる説明を組み合わせることで、機械の出力と人間の解釈の間の意味上のギャップを埋め、ユーザーにとってより理解しやすい結果を提供します。
このペーパーでは、画像分類タスク用の VALE フレームワークのパイロット研究を実施します。
具体的には、Shapley Additive Explains (SHAP) を使用して、分類された画像内で最も影響力のある領域を特定します。
次に、セグメント エニシング モデル (SAM) を使用して対象オブジェクトが抽出され、事前トレーニングされた最先端の視覚言語モデル (VLM) を使用して説明が生成されます。
ImageNet データセットとカスタム水中 SONAR 画像データセットの 2 つのデータセットに対して広範な実験研究が実行され、水中画像分類における VALE の実世界への適用性が実証されています。

要約(オリジナル)

Deep Neural Networks (DNNs) have revolutionized various fields by enabling task automation and reducing human error. However, their internal workings and decision-making processes remain obscure due to their black box nature. Consequently, the lack of interpretability limits the application of these models in high-risk scenarios. To address this issue, the emerging field of eXplainable Artificial Intelligence (XAI) aims to explain and interpret the inner workings of DNNs. Despite advancements, XAI faces challenges such as the semantic gap between machine and human understanding, the trade-off between interpretability and performance, and the need for context-specific explanations. To overcome these limitations, we propose a novel multimodal framework named VALE Visual and Language Explanation. VALE integrates explainable AI techniques with advanced language models to provide comprehensive explanations. This framework utilizes visual explanations from XAI tools, an advanced zero-shot image segmentation model, and a visual language model to generate corresponding textual explanations. By combining visual and textual explanations, VALE bridges the semantic gap between machine outputs and human interpretation, delivering results that are more comprehensible to users. In this paper, we conduct a pilot study of the VALE framework for image classification tasks. Specifically, Shapley Additive Explanations (SHAP) are used to identify the most influential regions in classified images. The object of interest is then extracted using the Segment Anything Model (SAM), and explanations are generated using state-of-the-art pre-trained Vision-Language Models (VLMs). Extensive experimental studies are performed on two datasets: the ImageNet dataset and a custom underwater SONAR image dataset, demonstrating VALEs real-world applicability in underwater image classification.

arxiv情報

著者 Purushothaman Natarajan,Athira Nambiar
発行日 2024-08-23 03:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68U10, cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 パーマリンク